Sam (토론 | 기여)님의 2021년 12월 13일 (월) 09:48 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다.
다음과 같은 전략이 많이 쓰인다.
전략
|
설명
|
특, 장점
|
한계
|
원-핫 인코딩
|
각 단어를 독립적인 벡터로 처리한다.
|
|
차원이 너무 많아질 우려가 있다.
|
임베딩
|
저차원의 밀집벡터로 처리. 비교적 작은 벡터 안에 단어들의 관계를 매핑한다.
일반적으로 이미 학습된 임베딩을 사용한다.
|
256, 512, 1024 등 비교적 작은 벡터를 사용한다.
|
|
|
|
|
|