바뀜

182 바이트 제거됨 ,  2023년 2월 5일 (일) 10:37
29번째 줄: 29번째 줄:  
|훈련데이터와 테스트데이터 분리
 
|훈련데이터와 테스트데이터 분리
 
|귀찮은 일을 모듈이 해준다.
 
|귀찮은 일을 모듈이 해준다.
 +
{| class="wikitable"
 +
|+자주 사용하는 옵션
 +
!의도
 +
!설명
 +
|-
 +
|stratify=df['해당열']
 +
|범주별 비율을 비슷하게 맞춰 데이터를 분리한다.
 +
(원 데이터에서 하나의 범주만 너무 많거나 적은 경우 사용하여 비율을 지킨다.)
 +
|}
 
|<syntaxhighlight lang="python">
 
|<syntaxhighlight lang="python">
 
from sklearn.model_selection import train_test_split
 
from sklearn.model_selection import train_test_split
58번째 줄: 67번째 줄:  
!설명
 
!설명
 
|-
 
|-
|결측치 채우기
+
|DataFrame을 사용하는 경우
|<syntaxhighlight lang="python">
+
|[[결측치 다루기:pandas]] 문서를 참고하자.
from sklearn.impute import SimpleImputer
  −
 
  −
imputer = SimpleImputer()
  −
imputed_train_X = pd.DataFrame(imputer.fit_transform(train_X))  # 학습용 자료에 결측치 채워넣기.
  −
test_train_X = pd.DataFrame(imputer.transform(test_X))  # 테스트용 데이터에 결측치 채워넣기.(위에서 사용하는 메서드와 다르다. 무슨 차이일까..)
  −
 
  −
</syntaxhighlight>결측치를 채우는 것만으로도 정밀도가 올라가는 경우가 많다.
  −
SimpleImputer(strategy='median')
   
|}
 
|}
 
= 모델 검증 =
 
= 모델 검증 =