이창치 다루기:pandas

Sam (토론 | 기여)님의 2023년 2월 1일 (수) 13:45 판 (새 문서: = 방법 = <syntaxhighlight lang="python"> # 기초 데이터 얻기 quantile25 = df['열'].quantile(.25) # 1사분위수 quantile75 = df['열'].quantile(.25) # 3사분위수 iqr =...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

방법편집

# 기초 데이터 얻기
quantile25 = df['열'].quantile(.25)  # 1사분위수
quantile75 = df['열'].quantile(.25)  # 3사분위수
iqr = quantile75 - quantile25  # 사분위범위(inter quarile range) 구하기.

# 상하한 정하기
down_lim = quantile25 - 1.5*iqr  # 1.5는 상황에 따라 적절한 값으로.
up_lim = quantile75 + 1.5*iqr

# 극단치 결측처리하기
df['열'] = np.where(
    df['열'] < down_lim | df['열'] > up_lim,
    np.nan, df['열'])  # 상하한을 벗어나면 nan으로 결측치로 처리한다.
df = df.dropna  # 결측치를 버린다.