pagerank: 웹 문서의 상대적 중요도에 따라 가중치를 부여하는 방법

-> 서로간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.

-> pagerank가 높으면 다른 사이트가 참조를 많이 한 것으로 해석할 수 있음

 

TextRank: PageRank의 아이디어에서 착안, 문서내의 문장(단어)를 이용하여 문장의 Ranking을 계산하는 알고리즘

 

<문서 요약 프로세스>

문서 입력 -> 문장 단위 분리 -> NLP(품사태깅, 불용어 처리/ NN단위 추출) -> TF-IDF모델(Scikit-learn이용, 각 단어의 가중치 계산) -> 그래프 생성(Correlation Matrix) -> TextRank 적용 -> 요약

 

*문장단위 분리

Konlpy의 Kkma -> sentence()를 통해 분리

Konlpy의 Twitter를 통해 명사 추출(품사태깅)

 

*TF-IDF모델 생성

TF-IDF(Term Frequency - Inverse Document Frequency): 정보 검색(Information Retrieval)과 텍스트 마이닝에서 사용하는 단어의 상대적 가중치, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치

 

TF(Term Frequency): 단어 빈도, 특정 단어가 문서 내에서 얼만큼의 빈도로 등장하는지를 나타내는 척도

IDF(Inverse Document Frequency): 역문헌 빈도수, 문서 빈도의 역수/ 전체 문서 개수를 해당 단어가 포함된 문서의 개수로 나눈 것을 의미

-> Scikit-learn을 이용해 수행

-> Sentence-Term Matrix 생성

 

*그래프 생성

Correlation Matrix 생성 : Sentence-Term Matrix와 Transpose Matrix를 곱하여 생성

-> 그래프의 인접행렬로 간주, 가중치 그래프로 나타낼 수 있음

 

 

 

 

 

https://excelsior-cjh.tistory.com/93

'공부일지 > etc' 카테고리의 다른 글

link 1168 visual studio error  (0) 2020.10.13
파이썬 2차원 배열 정렬  (0) 2020.10.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22
Pandas  (0) 2020.07.21

+ Recent posts