주 메뉴 열기
대문
임의의 문서로
로그인
설정
Pywiki 소개
면책 조항
Pywiki
검색
텍스트 데이터 전처리
언어
주시
편집
1
개요
편집
텍스트를 컴퓨터가 알아먹을 형태로 바꾸어주어야 한다.
1.1
전략
편집
다음과 같은 전략이 많이 쓰인다.
전략
설명
특, 장점
한계
원-핫 인코딩
각 단어를 독립적인 벡터로 처리한다.
차원이 너무 많아질 우려가 있다.
임베딩
저차원의 밀집벡터로 처리. 비교적 작은 벡터 안에 단어들의 관계를 매핑한다.
일반적으로 이미 학습된 임베딩을 사용한다.
256, 512, 1024 등 비교적 작은 벡터를 사용한다.