142번째 줄: |
142번째 줄: |
| 사칙연산 뿐 아니라 ==, !=, > 등의 논리연산도 가능하다. 기본적으로 칼럼과 레이블이 같은 위치의 값들끼리 연산한다. | | 사칙연산 뿐 아니라 ==, !=, > 등의 논리연산도 가능하다. 기본적으로 칼럼과 레이블이 같은 위치의 값들끼리 연산한다. |
| | | |
| + | ===열 조작=== |
| + | {| class="wikitable" |
| + | !의도 |
| + | !방법 |
| + | !설명 |
| + | |- |
| + | |열 선택 |
| + | |df.<nowiki>[['열1', '열2', ...]]</nowiki> |
| + | |해당 df에서 열을 선택하는 방법. |
| + | 열이 1개일 땐 대괄호 하나에 열이름으로 선택이 되지만, 2개 이상일 땐 대괄호 2개로 묶어주어야 한다. |
| + | |- |
| + | |열 리스트 얻기 |
| + | |df.columns |
| + | |어떤 칼럼이 있는지 알려준다. |
| + | |- |
| + | |열 이름 바꾸기 |
| + | |데이터프레임.rename(columns={'구이름':'신이름', '구이름2':'신이름2'}, inplace=True) |
| + | |inplace=True 이 옵션이 뭔진 모르겠네;; 숫자칼럼을 바꾸려면 붙어야 적용이 된다. |
| + | |- |
| + | |열 순서 바꾸기 및 추출 |
| + | |df<nowiki>[['열이름1', '열이름2']]</nowiki> |
| + | |열이름에 해당하는 순서로 해당 열들만 추출된다. |
| + | |- |
| + | | 열 제거 |
| + | |df = df.drop(columns='열이름') |
| + | | |
| + | |- |
| + | |열 붙이기 |
| + | |df['새로운 칼럼'] = 칼럼 |
| + | |행의 크기가 같은 칼럼을 붙일 수 있다. |
| + | |- |
| + | |새로운 칼럼 만들기 |
| + | |df['새 칼럼'] = df['열이름'].rank() |
| + | |크기가 같은 칼럼을 만든 후 덧붙일 수 있다. |
| + | |- |
| + | |같은 인덱스를 사용하는 데이터의 열 추가. |
| + | |df = pd.merge(df1, df2, how='옵션', left_index=True, right_index=True) |
| + | | |
| + | {| class="wikitable" |
| + | !옵션 |
| + | !의미 |
| + | |- |
| + | |how |
| + | |inner : 양쪽에 모두 있는 인덱스만 합친다. |
| + | outer : 한쪽에만 있는 인덱스라도 합친다 |
| + | |- |
| + | |left_index = True |
| + | |좌측의 인덱스 기준으로 합친다. |
| + | |- |
| + | |right_index = True |
| + | |우측 기준. 거의 양쪽 다 True 옵션을 준다. |
| + | |} |
| + | |- |
| + | |최댓값 구하기 |
| + | | df['열이름'].max() |
| + | | |
| + | |- |
| + | |최댓값의 인덱스 |
| + | |df['열이름'].idxmax() |
| + | | |
| + | |- |
| + | |최솟값 구하기 |
| + | |df['열이름'].min() |
| + | | |
| + | |- |
| + | |정규화 |
| + | |norm(df, '열이름') |
| + | |최솟값을 0, 최대값을 1로 정규화한다. |
| + | 전체 데이터에서 최솟값을 빼고, 최댓값과 최솟값의 차로 나눈다. |
| + | |} |
| == 파생변수 만들기 == | | == 파생변수 만들기 == |
| 데이터프레임 행별 연산을 통해 파생변수를 만들 수 있다. | | 데이터프레임 행별 연산을 통해 파생변수를 만들 수 있다. |