series = 컬럼이 한 개만 있는 형태, 인덱스 수정 가능, series끼리 연산가능

: 조회시 배열 처럼 or 인덱스로 /  여러개

ex) member[0], member['1번'] / member[ ['1번', '3번']]

data frame = 컬럼이 두 개 이상인 형태

: 정형데이터 처리 할 때 사용, 여러 개의 column 있는 형태

ex) member3 = { '번호' : ['1번', '2번', '3번'], '이름' : ['홍길동', '전우치', '강감찬'] }

member4 = pd.DataFrame(member3)

- 원하는 행만 조회하는 경우

1) 행벙호를 지정하여 모든 데이터 조회: member4.loc[0] -> 0번행 조회

2) 조건을 부여하여 해당하는 데이터만 조회: member4.loc[ member4['번호'] >= '2번' ]

- 행/열을 추가하는 방법

: member4[추가할 열 이름] = [1행, 2행, 3행]

- 삭제

: drop

 

xls 파일 -> read_excel()

지정컬럼 = parse_cols

엑셀파일 불러올때 - xlrd설치 요구

데이터 정렬 = sort_values

dataframe합치기 = concat, merge

 

ex) df1 = pd.concat( [df2, df3], axis = 1)

+) 공통적으로 존재하는 데이터만 표기 = join

ex) df1 = pd.concat( [df2, df3], axis = 1, join= 'inner')

+) 특정 컬럼을 기준으로 취합 = on

ex) df1 = pd.concat( [df2, df3], axis = 1, on= '이름')

 

 

+ matplotlib

figure - 그림을 그릴 수 있는 영역 자체, figure()

subplot - 실제 그림이 그려지는 영역, add_subplot()

순서: figure 설정 -> subplot 작업 

BAR 차트, LINE차트, PIE 차트

 

plt.style.use('ggplot'), add_subplot(조건)

scatter - 데이터 흩뿌림, 산포도

bar - 막대 그래프

barh - 가로로 누운 그래프

bar, legend - 히스토그램

.pie - pie차트

 

한글지원설정

matplotplib.font_manager

 

+ 차트 중복으로 그리기

난수를 만드는 규칙: np.random.seed()

twinx - 하나의 x 축에 2개의 y 축 설정

 

+ bokeh 패키지

matplotlib: 그래프에 interactive 기능 부재 

bokeh: interactive기능이 강점

-> pip install bokeh

 

output_notebook() - 그래프를 현재 보이는 화면에 출력

 

- 라인차트 그리기

1. import 입력

2. size 지정

3. 그림그릴 함수 입력

34. show()

(주식 line차트 그리기)

 

- bar차트 그리기

vbar: 세로 막대 차트

hbar: 가로 막대 차트

 

- 벌집모양차트 그리기

- 히스토그램 그래프 그리기

.histogram

 

- 네트워크 차트 그리기

spectral

graphRenderer()

: a데이터와 b데이터 사이 관련을 표현

 

- 구글 지도 출력하기

gmap

 

 

+ 한글 텍스트 분석

'공부일지 > etc' 카테고리의 다른 글

link 1168 visual studio error  (0) 2020.10.13
파이썬 2차원 배열 정렬  (0) 2020.10.12
TextRank  (0) 2020.08.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22

m.blog.naver.com/PostView.nhn?blogId=jhnyang&logNo=221508882582&proxyReferer=https:%2F%2Fwww.google.com%2F

 

Visual Studio오류 LINK1104, LNK1168 에러 해결법 (cannot open file, 파일이 열려있어~, 프로세스 강제 종료)

비주얼 스튜디오 에러잡기~비주얼 스튜디오로 프로젝트 하시다보면 심심찮게 이와 같은 에러를 보셨을 거예...

blog.naver.com

 

taskkill /f /pid (pid)

'공부일지 > etc' 카테고리의 다른 글

데이터분석 정리  (0) 2021.09.26
파이썬 2차원 배열 정렬  (0) 2020.10.12
TextRank  (0) 2020.08.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22

arr.sort(key = lambda x : x[1])

'공부일지 > etc' 카테고리의 다른 글

데이터분석 정리  (0) 2021.09.26
link 1168 visual studio error  (0) 2020.10.13
TextRank  (0) 2020.08.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22

pagerank: 웹 문서의 상대적 중요도에 따라 가중치를 부여하는 방법

-> 서로간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.

-> pagerank가 높으면 다른 사이트가 참조를 많이 한 것으로 해석할 수 있음

 

TextRank: PageRank의 아이디어에서 착안, 문서내의 문장(단어)를 이용하여 문장의 Ranking을 계산하는 알고리즘

 

<문서 요약 프로세스>

문서 입력 -> 문장 단위 분리 -> NLP(품사태깅, 불용어 처리/ NN단위 추출) -> TF-IDF모델(Scikit-learn이용, 각 단어의 가중치 계산) -> 그래프 생성(Correlation Matrix) -> TextRank 적용 -> 요약

 

*문장단위 분리

Konlpy의 Kkma -> sentence()를 통해 분리

Konlpy의 Twitter를 통해 명사 추출(품사태깅)

 

*TF-IDF모델 생성

TF-IDF(Term Frequency - Inverse Document Frequency): 정보 검색(Information Retrieval)과 텍스트 마이닝에서 사용하는 단어의 상대적 가중치, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치

 

TF(Term Frequency): 단어 빈도, 특정 단어가 문서 내에서 얼만큼의 빈도로 등장하는지를 나타내는 척도

IDF(Inverse Document Frequency): 역문헌 빈도수, 문서 빈도의 역수/ 전체 문서 개수를 해당 단어가 포함된 문서의 개수로 나눈 것을 의미

-> Scikit-learn을 이용해 수행

-> Sentence-Term Matrix 생성

 

*그래프 생성

Correlation Matrix 생성 : Sentence-Term Matrix와 Transpose Matrix를 곱하여 생성

-> 그래프의 인접행렬로 간주, 가중치 그래프로 나타낼 수 있음

 

 

 

 

 

https://excelsior-cjh.tistory.com/93

'공부일지 > etc' 카테고리의 다른 글

link 1168 visual studio error  (0) 2020.10.13
파이썬 2차원 배열 정렬  (0) 2020.10.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22
Pandas  (0) 2020.07.21

+ Recent posts