바뀜

둘러보기로 가기 검색하러 가기
196 바이트 추가됨 ,  2021년 12월 6일 (월) 13:58
잔글
편집 요약 없음
11번째 줄: 11번째 줄:  
# 원핫 인코딩(One-Hot Encoding).
 
# 원핫 인코딩(One-Hot Encoding).
 
#:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.
 
#:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.
#:- 그러나 너무 많은 범주가 있는 경우엔 잘 먹히지 않는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>
+
#:- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다.
#:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다.
+
#:- 그러나 너무 많은 범주가 있는 경우엔 오히려 정확도가 떨어지는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>
 +
#:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.
    
= 방법 =
 
= 방법 =
28번째 줄: 29번째 줄:     
== One-Hot Encoding ==
 
== One-Hot Encoding ==
특정 데이터에서 텍스트를 포함한 열을 구분해낸다.<syntaxhighlight lang="python">
+
원 핫 인코딩. 특정 데이터에서 텍스트를 포함한 열을 구분해낸다. 레이블을 범주형으로 인코딩하기. 분류모델에서 레이블을 독립적인 벡터형으로 만들기 위한 기능.<syntaxhighlight lang="python">
 
# df를 사용한다.
 
# df를 사용한다.
   67번째 줄: 68번째 줄:  
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)
 
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)
 
</syntaxhighlight>
 
</syntaxhighlight>
[[분류:인공지능 이론]]
+
 
 +
= 각주 =
 
[[분류:Scikit-learn]]
 
[[분류:Scikit-learn]]
 +
<references />
 +
[[분류:데이터 전처리]]

둘러보기 메뉴