바뀜

182 바이트 제거됨 , 2023년 2월 5일 (일) 10:37

→‎기초 사용법

29번째 줄: 29번째 줄:

|훈련데이터와 테스트데이터 분리

|귀찮은 일을 모듈이 해준다.

+

{| class="wikitable"

+

|+자주 사용하는 옵션

+

!의도

+

!설명

+

|-

+

|stratify=df['해당열']

+

|범주별 비율을 비슷하게 맞춰 데이터를 분리한다.

+

(원 데이터에서 하나의 범주만 너무 많거나 적은 경우 사용하여 비율을 지킨다.)

+

|}

|<syntaxhighlight lang="python">

from sklearn.model_selection import train_test_split

58번째 줄: 67번째 줄:

!설명

|-

−

|~~결측치 채우기~~

+

|DataFrame을 사용하는 경우

−

|~~<syntaxhighlight lang="python">~~

+

|[[결측치 다루기:pandas]] 문서를 참고하자.

−

~~from sklearn.impute import SimpleImputer~~

−

~~imputer = SimpleImputer()~~

−

~~imputed_train_X = pd.DataFrame(imputer.fit_transform(train_X)) # 학습용 자료에 결측치 채워넣기.~~

−

~~test_train_X = pd.DataFrame(imputer.transform(test_X)) # 테스트용 데이터에~~ 결측치 ~~채워넣기.(위에서 사용하는 메서드와 다르다~~. ~~무슨 차이일까..)~~

−

~~</syntaxhighlight>결측치를 채우는 것만으로도 정밀도가 올라가는 경우가 많다.~~

−

~~SimpleImputer(strategy='median')~~

|}

= 모델 검증 =

Sam

사무관, 인터페이스 관리자, 관리자, 교사

편집

1,408

번

바뀜

Scikit-learn (편집)

2023년 2월 5일 (일) 10:37 판