텍스트 데이터 전처리

Sam (토론 | 기여)님의 2021년 12월 13일 (월) 09:48 판 (새 문서: == 개요 == 텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다. === 전략 === 다음과 같은 전략이 많이 쓰인다. {| class="wikitable" !전략 !설...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

1 개요편집

텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다.

1.1 전략편집

다음과 같은 전략이 많이 쓰인다.

전략 설명 특, 장점 한계
원-핫 인코딩 각 단어를 독립적인 벡터로 처리한다. 차원이 너무 많아질 우려가 있다.
임베딩 저차원의 밀집벡터로 처리. 비교적 작은 벡터 안에 단어들의 관계를 매핑한다.

일반적으로 이미 학습된 임베딩을 사용한다.

256, 512, 1024 등 비교적 작은 벡터를 사용한다.