바뀜

둘러보기로 가기 검색하러 가기
234 바이트 추가됨 ,  2022년 1월 20일 (목) 17:51
잔글
2번째 줄: 2번째 줄:  
결측치를 제거하거나 새로운 값을 부여하거나, 범주형 변수를 어떻게 처리할지에 대한 지식을 모아둔 분류.
 
결측치를 제거하거나 새로운 값을 부여하거나, 범주형 변수를 어떻게 처리할지에 대한 지식을 모아둔 분류.
   −
== 전처리 ==
+
= 전처리 =
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
   16번째 줄: 16번째 줄:  
일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.
 
일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.
   −
== 모델 평가를 위한 데이터 분류 ==
+
== 정규화 ==
 +
 
 +
=== Min-Max Normalization(최소-최대 정규화) ===
 +
<math>x' = {x-min \over max-min}</math> 모델의 가장 작은 값을 0으로, 가장 큰 값을 1로 맞춘다.
 +
 
 +
이상치에 취약하다는 약점이 있다.
 +
 
 +
= 모델 평가를 위한 데이터 분류 =
 
데이터는 일반적으로 다음의 3개로 분류한다.
 
데이터는 일반적으로 다음의 3개로 분류한다.
 
{| class="wikitable"
 
{| class="wikitable"

둘러보기 메뉴