5번째 줄: |
5번째 줄: |
| 어떤 방법이 좋은진 상황에 따라 다르다. 복잡하고 정교하게 설계된 방법이라고 해서 다 옳진 않다. | | 어떤 방법이 좋은진 상황에 따라 다르다. 복잡하고 정교하게 설계된 방법이라고 해서 다 옳진 않다. |
| | | |
− | # 버리기.가장 간편한 방법인데, 이 안에 중요한 데이터가 들어있다면 좋은 선택은 아니다. | + | # 버리기. |
− | # 순서 부여하기.특정 빈도나 점수화가 가능한 대답의 경우엔 이에 해당하는 라벨링으로 바꾸어주는 방법. | + | #:가장 간편한 방법인데, 이 안에 중요한 데이터가 들어있다면 좋은 선택은 아니다. |
− | # 원핫 인코딩(One-Hot Encoding).그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.- 그러나 너무 많은 범주가 있는 경우엔 잘 먹히지 않는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다. | + | # 순서 부여하기. |
| + | #:특정 빈도나 점수화가 가능한 대답의 경우엔 이에 해당하는 라벨링으로 바꾸어주는 방법. |
| + | # 원핫 인코딩(One-Hot Encoding). |
| + | #:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다. |
| + | #:- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다. |
| + | #:- 그러나 너무 많은 범주가 있는 경우엔 오히려 정확도가 떨어지는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref> |
| + | #:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다. |
| | | |
| = 방법 = | | = 방법 = |
23번째 줄: |
29번째 줄: |
| | | |
| == One-Hot Encoding == | | == One-Hot Encoding == |
− | 특정 데이터에서 텍스트를 포함한 열을 구분해낸다.<syntaxhighlight lang="python"> | + | 원 핫 인코딩. 특정 데이터에서 텍스트를 포함한 열을 구분해낸다. 레이블을 범주형으로 인코딩하기. 분류모델에서 레이블을 독립적인 벡터형으로 만들기 위한 기능.<syntaxhighlight lang="python"> |
| # df를 사용한다. | | # df를 사용한다. |
| | | |
62번째 줄: |
68번째 줄: |
| OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1) | | OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1) |
| </syntaxhighlight> | | </syntaxhighlight> |
− | [[분류:인공지능 이론]]
| + | |
| + | = 각주 = |
| [[분류:Scikit-learn]] | | [[분류:Scikit-learn]] |
| + | <references /> |
| + | [[분류:데이터 전처리]] |