주 메뉴 열기
대문
임의의 문서로
로그인
설정
Pywiki 소개
면책 조항
Pywiki
검색
바뀜
← 이전 편집
다음 편집 →
결측치 다루기:pandas
(편집)
2022년 8월 3일 (수) 16:55 판
455 바이트 추가됨
,
2022년 8월 3일 (수) 16:55
→개요
3번째 줄:
3번째 줄:
= 시작하기 전에 =
= 시작하기 전에 =
+
특성공학:pandas를 보고 오자.
+
결측치를 처리하기 전에 전체적인 데이터셋이 어떤 형태인지 파악할 필요가 있다.
결측치를 처리하기 전에 전체적인 데이터셋이 어떤 형태인지 파악할 필요가 있다.
{| class="wikitable"
{| class="wikitable"
50번째 줄:
52번째 줄:
== 채우기 ==
== 채우기 ==
+
다양한 방식의 채우기가 가능하다.
{| class="wikitable"
{| class="wikitable"
|-
|-
67번째 줄:
70번째 줄:
df.fillna(method = 'bfill') # 비어 있을 경우, 바로 아래 데이터를 입력
df.fillna(method = 'bfill') # 비어 있을 경우, 바로 아래 데이터를 입력
+
|-
+
|평균으로 채우기
+
|열2 안의 결측치를 채우고 싶을 때 단순 평균을 넣을 수도 있지만, 열1이 같은 집단의 평균을 구해 넣는 게 더 정확할 것이다.(예컨대, 평균나이가 빠졌다면 남성의 결측치는 남성의 평균나이를 넣는 것.)
+
df.filna(df.groupby['열1'])['열2'].transform('median'), inplace=True)
|}
|}
Sam
사무관
,
인터페이스 관리자
,
관리자
, 교사
편집
1,408
번