바뀜

분류:데이터 전처리 (편집)

234 바이트 추가됨 , 2022년 1월 20일 (목) 17:51

잔글

2번째 줄: 2번째 줄:

결측치를 제거하거나 새로운 값을 부여하거나, 범주형 변수를 어떻게 처리할지에 대한 지식을 모아둔 분류.

−

== 전처리 ==

+

= 전처리 =

데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.

16번째 줄: 16번째 줄:

일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.

−

== 모델 평가를 위한 데이터 분류 ==

+

== 정규화 ==

+

=== Min-Max Normalization(최소-최대 정규화) ===

+

<math>x' = {x-min \over max-min}</math> 모델의 가장 작은 값을 0으로, 가장 큰 값을 1로 맞춘다.

+

이상치에 취약하다는 약점이 있다.

+

= 모델 평가를 위한 데이터 분류 =

데이터는 일반적으로 다음의 3개로 분류한다.

{| class="wikitable"

편집

1,419

번