주 메뉴 열기
대문
임의의 문서로
로그인
설정
Pywiki 소개
면책 조항
Pywiki
검색
바뀜
← 이전 편집
다음 편집 →
분류:데이터 전처리
(편집)
2021년 12월 3일 (금) 17:49 판
442 바이트 추가됨
,
2021년 12월 3일 (금) 17:49
→데이터 분류
16번째 줄:
16번째 줄:
일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.
일반적으로 표준화를 거친다. 평균이 0이고, 분산이 1인 상태로 만들어 다루는 것이 일반적이다. 이는 사이킷런에서 기본적으로 제공하는 기능이다.
−
== 데이터 분류 ==
+
==
모델 평가를 위한
데이터 분류 ==
데이터는 일반적으로 다음의 3개로 분류한다.
데이터는 일반적으로 다음의 3개로 분류한다.
+
{| class="wikitable"
+
!데이터
+
!의도
+
|-
+
|훈련데이터
+
|가중치(매개변수)를 학습하는 데 쓰이는 데이터.
+
|-
+
|검증데이터
+
|모델 평가에 사용.
+
테스트 데이터와의 차이는 무엇일까? => 하이퍼파라미터를 조절하는 데 사용. 검증세트에 맞게끔 모델을 튜닝하다 보면 오히려 여기에 과적합 되어 테스트에 맞지 않게 될 수도 있다.(이를 정보누설이라 한다.)
−
* 훈련데이터 : 가중치(매개변수)를 학습하는 데 쓰이는 데이터
.
+
때문에 테스트 데이터는 최종적으로 한 번만 사용하게끔 개발계획을 잡는 것이 이상적
.
−
*
시험데이터
: 신경망의 성능 평가
.(
하이퍼파라미터를 조정하는 데 쓰면 하이퍼파라미터가 여기에 오버피팅 되어버린다
.)
+
|-
−
* 검증데이터 : 하이퍼파라미터의 성능을 평가하기 위한 데이터.
+
|
시험데이터
−
+
|완전히 다른 데이터셋으로 최종적으로 테스트
.(
모델은 간접적으로라도 테스트세트에 대한 어떠한 정보도 얻어선 안된다
.)
+
|}
[[분류:인공지능 이론]]
[[분류:인공지능 이론]]
Sam
사무관
,
인터페이스 관리자
,
관리자
, 교사
편집
1,408
번