주 메뉴 열기
대문
임의의 문서로
로그인
설정
Pywiki 소개
면책 조항
Pywiki
검색
바뀜
← 이전 편집
다음 편집 →
범주형 변수 다루기
(편집)
2021년 9월 2일 (목) 18:03 판
18 바이트 추가됨
,
2021년 9월 2일 (목) 18:03
잔글
→방법
11번째 줄:
11번째 줄:
# 원핫 인코딩(One-Hot Encoding).
# 원핫 인코딩(One-Hot Encoding).
#:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.
#:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.
−
#:- 그러나 너무 많은 범주가 있는 경우엔
잘 먹히지 않는
전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>
+
#:- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다.
−
#:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다
.- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다
.
+
#:- 그러나 너무 많은 범주가 있는 경우엔
오히려 정확도가 떨어지는
전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>
+
#:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.
= 방법 =
= 방법 =
Sam
사무관
,
인터페이스 관리자
,
관리자
, 교사
편집
1,408
번