텍스트 데이터 전처리
Pywiki
둘러보기로 가기
검색하러 가기
1
개요
[
편집
|
원본 편집
]
텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다.
1.1
전략
[
편집
|
원본 편집
]
다음과 같은 전략이 많이 쓰인다.
전략
설명
특, 장점
한계
원-핫 인코딩
각 단어를 독립적인 벡터로 처리한다.
차원이 너무 많아질 우려가 있다.
임베딩
저차원의 밀집벡터로 처리. 비교적 작은 벡터 안에 단어들의 관계를 매핑한다.
일반적으로 이미 학습된 임베딩을 사용한다.
256, 512, 1024 등 비교적 작은 벡터를 사용한다.
분류
:
데이터 전처리
둘러보기 메뉴
개인 도구
로그인하지 않음
토론
기여
계정 만들기
로그인
이름공간
문서
토론
변수
보기
읽기
편집
원본 편집
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
특수 문서 목록
인쇄용 판
고유 링크
문서 정보