바뀜

334 바이트 추가됨 , 2023년 2월 1일 (수) 13:45

→‎채우기

27번째 줄: 27번째 줄:

|df.isnull().sum()

|-

−

|

+

|셀별 null 파악

−

|

+

|각 데이터가 비었는지, 채워져 있는지 True, False로 보여준다.

−

|

+

|pd.isna(df)

|}

60번째 줄: 60번째 줄:

== 채우기 ==

다양한 방식의 채우기가 가능하다.

+

fillna 함수를 이용한다.

{| class="wikitable"

|-

70번째 줄: 72번째 줄:

test_train_X = pd.DataFrame(imputer.transform(test_X)) # 테스트용 데이터에 결측치 채워넣기.(위에서 사용하는 메서드와 다르다. 무슨 차이일까..)

</syntaxhighlight>[어떤 값으로 채우는 걸까?]

+

결측치를 채우는 것만으로도 정밀도가 올라가는 경우가 많다.

+

SimpleImputer(strategy='median')

−

~~데이터프레임을 사용하는 경우, <code>fillna(채울값)</code> 함수가 준비되어 있다.~~

−

~~df.fillna(method = 'ffill') # 비어 있을 경우, 바로 위 데이터를 입력~~

−

~~df.fillna(method = 'bfill') # 비어 있을 경우, 바로 아래 데이터를 입력~~

|-

|평균으로 채우기

|열2 안의 결측치를 채우고 싶을 때 단순 평균을 넣을 수도 있지만, 열1이 같은 집단의 평균을 구해 넣는 게 더 정확할 것이다.(예컨대, 평균나이가 빠졌다면 남성의 결측치는 남성의 평균나이를 넣는 것.)

df.filna(df.groupby['열1'])['열2'].transform('median'), inplace=True)

+

|-

+

|바로 위 데이터로

+

|해당 결측치가 위 데이터와 별반 다르지 않으리라 예상되는 경우 위 데이터의 값을 그대로 사용한다.

+

df.fillna(method = 'ffill') # 비어 있을 경우, 바로 위 데이터를 입력

+

|-

+

|바로 아래 데이터로

+

|df.fillna(method = 'bfill') # 비어 있을 경우, 바로 아래 데이터를 입력

|}

107번째 줄: 115번째 줄:

|}

[[분류:결측치 다루기]]

+

[[분류:Pandas]]

Sam

사무관, 인터페이스 관리자, 관리자, 교사

편집

1,419

번

바뀜

결측치 다루기:pandas (편집)

2023년 2월 1일 (수) 13:45 판