"분류:데이터 전처리"의 두 판 사이의 차이

Pywiki
둘러보기로 가기 검색하러 가기
태그: 모바일 웹 편집 모바일 편집
4번째 줄: 4번째 줄:
 
== 전처리 ==
 
== 전처리 ==
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
 
데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.
 +
 +
1. 텍스트 데이터의 경우.
 +
컴퓨터가 이해할 수 있는 평태로 변환.
 +
단어를 인덱싱하여 벡터화 해 수치화.
 +
2. 정규화
 +
데이터 크기 자체에 영향을 받지 않게끔.
 +
평균을 0으로, 표준편차를 1로 만드는 정규화를 수행한다.
 +
3. 데이터를 0-1 사이로 정규화한다.
  
 
=== 표준화 ===
 
=== 표준화 ===

2021년 11월 14일 (일) 02:07 판

1 개요

결측치를 제거하거나 새로운 값을 부여하거나, 범주형 변수를 어떻게 처리할지에 대한 지식을 모아둔 분류.

2 전처리

데이터마다 스케일의 크기가 다르다. 어떤 것은 1~5 사이인데, 어떤 것은 100~1000 사이이기도 하고.. 요소마다 스케일이 다르기도 한데, 크기가 큰 항목에 더 크게 영향을 받기 때문에 이들에 대한 전처리가 필요하다.

1. 텍스트 데이터의 경우. 컴퓨터가 이해할 수 있는 평태로 변환.

단어를 인덱싱하여 벡터화 해 수치화.

2. 정규화 데이터 크기 자체에 영향을 받지 않게끔. 평균을 0으로, 표준편차를 1로 만드는 정규화를 수행한다. 3. 데이터를 0-1 사이로 정규화한다.

2.1 표준화

일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.

3 데이터 분류

데이터는 일반적으로 다음의 3개로 분류한다.

  • 훈련데이터 : 가중치(매개변수)를 학습하는 데 쓰이는 데이터.
  • 시험데이터 : 신경망의 성능 평가.(하이퍼파라미터를 조정하는 데 쓰면 하이퍼파라미터가 여기에 오버피팅 되어버린다.)
  • 검증데이터 : 하이퍼파라미터의 성능을 평가하기 위한 데이터.

하위 분류

다음은 이 분류에 속하는 하위 분류 4개 가운데 4개입니다.

"데이터 전처리" 분류에 속하는 문서

다음은 이 분류에 속하는 문서 8개 가운데 8개입니다.