어떤 방법이 좋은진 상황에 따라 다르다. 복잡하고 정교하게 설계된 방법이라고 해서 다 옳진 않다.
어떤 방법이 좋은진 상황에 따라 다르다. 복잡하고 정교하게 설계된 방법이라고 해서 다 옳진 않다.
−
# 버리기.가장 간편한 방법인데, 이 안에 중요한 데이터가 들어있다면 좋은 선택은 아니다.
+
# 버리기.
−
# 순서 부여하기.특정 빈도나 점수화가 가능한 대답의 경우엔 이에 해당하는 라벨링으로 바꾸어주는 방법.
+
#:가장 간편한 방법인데, 이 안에 중요한 데이터가 들어있다면 좋은 선택은 아니다.
−
# 원핫 인코딩(One-Hot Encoding).그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.- 그러나 너무 많은 범주가 있는 경우엔 잘 먹히지 않는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다.
+
# 순서 부여하기.
+
#:특정 빈도나 점수화가 가능한 대답의 경우엔 이에 해당하는 라벨링으로 바꾸어주는 방법.
+
# 원핫 인코딩(One-Hot Encoding).
+
#:그런데, 빨강, 초록 등의 중립적인 값은 어떻게 처리해야 하는가? 이런 경우엔 선택지에 따라 열을 세분화하여 해당값을 갖는 경우에만 1을 부여하는 등의 방식을 사용한다.
+
#:- 그러나 너무 많은 범주가 있는 경우엔 잘 먹히지 않는 전략이다. 범주가 15개가 넘는다면 권장되지 않는다.<ref>https://www.kaggle.com/alexisbcook/categorical-variables</ref>
+
#:- 15개 이상의 항목을 가진 경우, 순서부여하기로 처리하고 이 둘을 합치는 전략도 있다.- 너무 많은 열이 만들어지면 데이터 자체가 너무 커진다.