Dataframe - table

Series - list

 

#Dataframe

built in index가 있을 경우(해당 csv파일에 각 행마다 번호가 붙여진 경우) 불러올 때 index_col =0 을 설정해준다.

read_csv(): 파일 불러오기

to_csv(): 파일 저장하기

.describe 속성: min, mean, max등 값을 대표하는 값들을 알려줌

.columns 속성: 열 이름 보여줌

.colu

.shape 속성: 행,열

.column명: 해당 컬럼만을 보여줌(df[컬럼명])

.column명 == 'a': 'a'일 경우 True 아닐경우 False

.head(): 상위 5개 행 보여줌

.set_index('이름'): 해당이름으로 

- index based selection

.iloc[행]: 해당 행을 보여줌(df.iloc[-5:]: 마지막 행 5개를 보여줌)

.iloc[:, 열]: 해당 열을 보여줌(df.iloc[:3, 0]: 0열의 3번째까지만 보여줌)

- label based selection

.loc[행갯수, ['컬럼명1', '컬럼명2', ...]]: 갯수만큼 해당 컬럼만을 나타냄

.isin['a', 'b'] : a나 b가 있는 것

df.apply(함수, axis='columns') - 해당 함수를 데이터 프레임에 적용

.

pd.DataFrame({'I':['me', 'mine'], 'You':['you', 'yours']}, index = ['a', 'b'])
pd.Series([1,2,3], index =['one', 'two', 'three'], name = 'numbering')

#Series

.unique(): 유일한 항

.value_counts(): 갯수세기

 

 

----

Grouping and Sorting

 

- Groupwise

.value_counts(): 갯수 세기

 

.groupby('컬럼명'):

.apply():

.agg('함수명1', '함수명2', '함수명3'): 해당 함수들의 값들을 보여줌,  

.reset_index()

.sort_values(by='컬럼명'): 컬럼명 여러 개 가능

.sort_index()

 

 

--

.dtype = 데이터프레임, 시리즈 안의 컬럼 데이터 타입

.dtypes = 모든 컬럼의 데이터타입

.astype('데이터타입') : 해당 데이터타입으로 형변환

NaN = Not a Number

pd.isnull('컬럼') 

.fillna("~"): 비어있는 칸을 ~로 대체

.replace("a", "b"): a를 b로 대체

+ Recent posts