바뀜

331 바이트 추가됨 ,  2021년 11월 14일 (일) 02:07
4번째 줄: 4번째 줄:  
== 전처리 ==
 
== 전처리 ==
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
 +
 +
1. 텍스트 데이터의 경우.
 +
컴퓨터가 이해할 수 있는 평태로 변환.
 +
단어를 인덱싱하여 벡터화 해 수치화.
 +
2. 정규화
 +
데이터 크기 자체에 영향을 받지 않게끔.
 +
평균을 0으로, 표준편차를 1로 만드는 정규화를 수행한다.
 +
3. 데이터를 0-1 사이로 정규화한다.
    
=== 표준화 ===
 
=== 표준화 ===