바뀜
둘러보기로 가기
검색하러 가기
← 이전 편집
Scikit-learn
(편집)
2023년 2월 5일 (일) 10:37 판
182 바이트 제거됨
,
2023년 2월 5일 (일) 10:37
→기초 사용법
29번째 줄:
29번째 줄:
|훈련데이터와 테스트데이터 분리
|훈련데이터와 테스트데이터 분리
|귀찮은 일을 모듈이 해준다.
|귀찮은 일을 모듈이 해준다.
+
{| class="wikitable"
+
|+자주 사용하는 옵션
+
!의도
+
!설명
+
|-
+
|stratify=df['해당열']
+
|범주별 비율을 비슷하게 맞춰 데이터를 분리한다.
+
(원 데이터에서 하나의 범주만 너무 많거나 적은 경우 사용하여 비율을 지킨다.)
+
|}
|<syntaxhighlight lang="python">
|<syntaxhighlight lang="python">
from sklearn.model_selection import train_test_split
from sklearn.model_selection import train_test_split
58번째 줄:
67번째 줄:
!설명
!설명
|-
|-
−
|
결측치 채우기
+
|
DataFrame을 사용하는 경우
−
|
<syntaxhighlight lang="python">
+
|
[[
결측치
다루기:pandas]] 문서를 참고하자
.
−
from sklearn.impute import SimpleImputer
−
−
imputer = SimpleImputer()
−
imputed_train_X = pd.DataFrame(imputer.fit_transform(train_X)) # 학습용 자료에 결측치 채워넣기.
−
test_train_X = pd.DataFrame(imputer.transform(test_X)) # 테스트용 데이터에
결측치
채워넣기.(위에서 사용하는 메서드와 다르다
.
무슨 차이일까..)
−
−
</syntaxhighlight>결측치를 채우는 것만으로도 정밀도가 올라가는 경우가 많다.
−
SimpleImputer(strategy='median')
|}
|}
= 모델 검증 =
= 모델 검증 =
Sam
사무관
,
인터페이스 관리자
,
관리자
, 교사
편집
1,408
번
둘러보기 메뉴
개인 도구
로그인하지 않음
토론
기여
계정 만들기
로그인
이름공간
문서
토론
변수
보기
읽기
편집
원본 편집
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
도구
특수 문서 목록
인쇄용 판