판다스에 관한 정보들을 틀:Pandas:DataFrame을 통해 체계화하여 관리한다.
- Pandas:DataFrame:개요
- Pandas:DataFrame:구조 파악
- Pandas:DataFrame:구조 조작
- Pandas:DataFrame:다른 형태로 저장하고 불러오기
- Pandas:DataFrame:활용
- Pandas:DataFrame:관련 에러
1 개요편집
특정한 데이터 타입으로 다루어야 할 때.
1.1 타입 관련편집
의도 | 방법 | 설명 | ||||||
---|---|---|---|---|---|---|---|---|
데이터 타입 파악 | print(df.dtypes) | 각 행별로 데이터타입을 알 수 있다. | ||||||
내부요소 타입 바꾸기 |
|
|||||||
날짜데이터 변환 | df.to_datetime(df['열이름']) | 텍스트형태로 들어온 데이터를 날짜형식으로 바꿔준다. |
2 타입편집
타입 | 설명 | 방법 |
---|---|---|
시계열 객체로 변환 | 특정 데이터를 시계열객체로 변환한다. | df['열이름'] = pd.to_datetime(df['열이름']) |
특정 기간으로 압축 | 특정 기간에 대한 형태로 압축한다.
datetime 변수에 대해서만 가능하다. |
df = df.to_period(freq='D') # 1일 단위로 남기고 하위 데이터는 지운다.
df = df.to_period(freq='M') # 1달 단위로 남기고 하위 데이터는 지운다.
df = df.to_period(freq='A') # 1년 단위로 남기고 하위 데이터는 지운다.
|
2.1 데이터 형식편집
[다양한 형식이 있을 텐데.. 찾아 조금 채워보자.]
의도 | 방법 | 설명 |
---|---|---|
시계열 데이터로 | df.index = pd.to_datetime(df.index) | 20200322와 같은 숫자는 그냥 문자열로 취급된다. 이를 시계열로 인식되게 하려면 데이터 변환을 해주어야 한다. |
숫자형데이터 | df['열이름'] = pd.to_numeric(df['열이름']) | 해당 데이터가 숫자임을 알려주는 것. |
3 타입에 따른 각종 함수편집
3.1 시계열 데이터편집
datetime 객체의 경우, df['열이름'].dt.year 처럼 해당 데이터에서 년도를 뽑아낼 수 있다.
의도 | 방법 |
---|---|
시계열의 연도 | df.dt.year |
달 | df.dt.month |
일 | df.dt.day |