이창치 다루기:pandas

방법편집

# 기초 데이터 얻기
quantile25 = df['열'].quantile(.25)  # 1사분위수
quantile75 = df['열'].quantile(.25)  # 3사분위수
iqr = quantile75 - quantile25  # 사분위범위(inter quarile range) 구하기.

# 상하한 정하기
down_lim = quantile25 - 1.5*iqr  # 1.5는 상황에 따라 적절한 값으로.
up_lim = quantile75 + 1.5*iqr

# 극단치 결측처리하기
df['열'] = np.where(
    df['열'] < down_lim | df['열'] > up_lim,
    np.nan, df['열'])  # 상하한을 벗어나면 nan으로 결측치로 처리한다.
df = df.dropna  # 결측치를 버린다.