"이창치 다루기:pandas"의 두 판 사이의 차이

Pywiki
둘러보기로 가기 검색하러 가기
(새 문서: = 방법 = <syntaxhighlight lang="python"> # 기초 데이터 얻기 quantile25 = df['열'].quantile(.25) # 1사분위수 quantile75 = df['열'].quantile(.25) # 3사분위수 iqr =...)
 
(차이 없음)

2023년 2월 1일 (수) 13:45 기준 최신판

방법[편집 | 원본 편집]

# 기초 데이터 얻기
quantile25 = df['열'].quantile(.25)  # 1사분위수
quantile75 = df['열'].quantile(.25)  # 3사분위수
iqr = quantile75 - quantile25  # 사분위범위(inter quarile range) 구하기.

# 상하한 정하기
down_lim = quantile25 - 1.5*iqr  # 1.5는 상황에 따라 적절한 값으로.
up_lim = quantile75 + 1.5*iqr

# 극단치 결측처리하기
df['열'] = np.where(
    df['열'] < down_lim | df['열'] > up_lim,
    np.nan, df['열'])  # 상하한을 벗어나면 nan으로 결측치로 처리한다.
df = df.dropna  # 결측치를 버린다.