Dataframe - table
Series - list
#Dataframe
built in index가 있을 경우(해당 csv파일에 각 행마다 번호가 붙여진 경우) 불러올 때 index_col =0 을 설정해준다.
read_csv(): 파일 불러오기
to_csv(): 파일 저장하기
.describe 속성: min, mean, max등 값을 대표하는 값들을 알려줌
.columns 속성: 열 이름 보여줌
.colu
.shape 속성: 행,열
.column명: 해당 컬럼만을 보여줌(df[컬럼명])
.column명 == 'a': 'a'일 경우 True 아닐경우 False
.head(): 상위 5개 행 보여줌
.set_index('이름'): 해당이름으로
- index based selection
.iloc[행]: 해당 행을 보여줌(df.iloc[-5:]: 마지막 행 5개를 보여줌)
.iloc[:, 열]: 해당 열을 보여줌(df.iloc[:3, 0]: 0열의 3번째까지만 보여줌)
- label based selection
.loc[행갯수, ['컬럼명1', '컬럼명2', ...]]: 갯수만큼 해당 컬럼만을 나타냄
.isin['a', 'b'] : a나 b가 있는 것
df.apply(함수, axis='columns') - 해당 함수를 데이터 프레임에 적용
.
pd.DataFrame({'I':['me', 'mine'], 'You':['you', 'yours']}, index = ['a', 'b'])
pd.Series([1,2,3], index =['one', 'two', 'three'], name = 'numbering')
#Series
.unique(): 유일한 항
.value_counts(): 갯수세기
----
Grouping and Sorting
- Groupwise
.value_counts(): 갯수 세기
.groupby('컬럼명'):
.apply():
.agg('함수명1', '함수명2', '함수명3'): 해당 함수들의 값들을 보여줌,
.reset_index()
.sort_values(by='컬럼명'): 컬럼명 여러 개 가능
.sort_index()
--
.dtype = 데이터프레임, 시리즈 안의 컬럼 데이터 타입
.dtypes = 모든 컬럼의 데이터타입
.astype('데이터타입') : 해당 데이터타입으로 형변환
NaN = Not a Number
pd.isnull('컬럼')
.fillna("~"): 비어있는 칸을 ~로 대체
.replace("a", "b"): a를 b로 대체
'공부일지 > etc' 카테고리의 다른 글
google cloud speech-to-text 사용하기 (0) | 2020.07.26 |
---|---|
한국어 text generator만들어 보기 - konlpy 설치하기 (0) | 2020.07.22 |
Tensorflow in Practice 3, Sequence Model (0) | 2020.06.28 |
Tensorflow in Practice 2, Natural Language Processing (0) | 2020.06.27 |
아낰혼다 (0) | 2020.06.24 |