텍스트 데이터 전처리

1 개요편집

텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다.

1.1 전략편집

다음과 같은 전략이 많이 쓰인다.

전략 설명 특, 장점 한계
원-핫 인코딩 각 단어를 독립적인 벡터로 처리한다. 차원이 너무 많아질 우려가 있다.
임베딩 저차원의 밀집벡터로 처리. 비교적 작은 벡터 안에 단어들의 관계를 매핑한다.

일반적으로 이미 학습된 임베딩을 사용한다.

256, 512, 1024 등 비교적 작은 벡터를 사용한다.