바뀜

219 바이트 추가됨 ,  2022년 1월 21일 (금) 14:42
6번째 줄: 6번째 줄:     
1. 텍스트 데이터의 경우.
 
1. 텍스트 데이터의 경우.
 +
 
컴퓨터가 이해할 수 있는 평태로 변환.
 
컴퓨터가 이해할 수 있는 평태로 변환.
 
  단어를 인덱싱하여 벡터화 해 수치화.
 
  단어를 인덱싱하여 벡터화 해 수치화.
 
2. 정규화
 
2. 정규화
 +
 
데이터 크기 자체에 영향을 받지 않게끔.
 
데이터 크기 자체에 영향을 받지 않게끔.
평균을 0으로, 표준편차를 1로 만드는 정규화를 수행한다.
  −
3. 데이터를 0-1 사이로 정규화한다.
     −
=== 표준화 ===
+
== 정규화 방법 ==
일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.
  −
 
  −
== 정규화 ==
      
=== Min-Max Normalization(최소-최대 정규화) ===
 
=== Min-Max Normalization(최소-최대 정규화) ===
 
<math>x' = {x-min \over max-min}</math> 모델의 가장 작은 값을 0으로, 가장 큰 값을 1로 맞춘다.
 
<math>x' = {x-min \over max-min}</math> 모델의 가장 작은 값을 0으로, 가장 큰 값을 1로 맞춘다.
   −
이상치에 취약하다는 약점이 있다.
+
이상치에 취약하다는 약점이 있다.(값이 1개라도 이상하게 크게 튀면 나머지 모두가 영향을 받아버린다.)
 +
 
 +
=== '''Z-Score Normalization(Z-점수 정규화), 표준화''' ===
 +
위 정규화의 약점을 해결하기 위해 나온 전략. 표준화라고도 한다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것.(사이킷런에서 기본적으로 제공하는 기능이다.)
 +
 
 +
<math>z = {x-mean \over \sigma}</math> 평균과 표준편차를 이용해 데이터가 정규분포(가우시안분포)에 해당하게 바꾸어주는 과정이다.
    
= 모델 평가를 위한 데이터 분류 =
 
= 모델 평가를 위한 데이터 분류 =