Python/Pandas

Python/Pandas

[Pandas] 데이터 프레임 재구조화 (stack, unstack)

pandas의 stack() 함수와 unstack() 함수로 데이터 프레임을 재구조화할 수 있습니다. 간단하게 설명하자면, stack은 컬럼을 인덱스로 가져오는 것이며, unstack은 (지정한 level)의 인덱스를 컬럼으로 보내는 역할을 합니다. import pandas as pd df = pd.DataFrame({'col_1':[1,2,3],'col_2':[4,5,6]}, index=['a','b','c']) df Stack stack은 컬럼을 인덱스로 보내는 역할을 합니다. 아래를 보시면 인덱스에 해당하는 각 컬럼을 차례대로 쌓는 다고 생각하시면 됩니다. stack = df.stack() stack df 데이터프레임의 인덱스 level 0인 a,b,c에 해당하는 컬럼을 차례대로 쌓아 올린다. st..

Python/Pandas

[Pandas] dtype 기반 열 선택 / select_dtypes

DataFrame.select_dtypes(include=None, exclude=None) [1] select_dtypes 함수는 열에 포함된 데이터들을 type 기준으로 인덱싱 할 수 있도록 합니다. select_dtypes(include=None, exclude=None) 형태를 가지며, include에 넣은 값은 포함하고, exclude에 넣은 값을 제외한 열을 데이터 프레임 형태로 반환합니다. [2] 사용법 기본 사용법 * include 및 exclude는 비어있거나 겹치면 안 되며(에러 발생), 스칼라나 list형태의 입력값이 가능합니다. 자료형 1. 숫자형(numeric)은 np.number 또는 'number' 2. 문자형(str)은 'object' 3. 날짜,시간(datetimes)을 선..

Python/Pandas

[pandas] pivot_table 원하는 대로 테이블 만들기

1. 피벗 테이블 함수 : pivot_table() pivot_table() 함수의 기본 구성요소 행 인덱스 (index) 열 인덱스 (columns) 데이터 값 (values) 데이터 집계 함수 (aggfunc) 각 구성요소에 적용할 데이터 프레임의 열을 각각 함수의 인자로 전달한다. 4가지 구성요소를 적절히 입력하고 피벗테이블을 생성해보자. 위 데이터프레임에서 인덱스는 '광역시도', '시도'로 하고 칼럼은 '구분' ( 남, 여 , 합계 )으로 입력 값은 '인구수', '20-39세', '65세이상'으로 하여 테이블을 만들어보겠습니다. 집계 함수를 넣어주지 않고 index, columns, values를 넣어주면 기본적으로 누적 값인 sum으로 계산되어 테이블을 보여준다. 함수는 aggfunc = 'me..

Python/Pandas

[pandas] rename, reset_index

(1) Pandas DataFrame 이름 변경하기 (1-1) column명 변경하기 population.rename(columns = {'항목':'구분'}, inplace=True) rename(columns = {'항목' : '구분'}) 를 통해서 컬러명을 '항목' -> '구분'으로 변경해준다. ( 여러 개를 한꺼번에 바꿀 수 있으며 디렉터리 형식으로 여러개를 나열하면 된다. ) 추가로 inplace=True를 통해서 변경된 내용을 본 DataFrame에 바로 변경을 저장하는 것을 의미한다. (1-2) columns명 변경하기 컬럼명이 보다시피 'ID', 'name', 'class' 입니다. df.columns 는 간단하게 DataFrame의 모든 컬럼명을 조회할 수 있는 코드입니다. 하지만 위와 같..

kylo
'Python/Pandas' 카테고리의 글 목록