<설치>

www.virtualbox.org/

 

Oracle VM VirtualBox

Welcome to VirtualBox.org! News Flash Important August 3rd, 2020We're hiring! Looking for a new challenge? We're hiring a VirtualBox senior developer (Germany/Europe/USA). New September 4th, 2020VirtualBox 6.1.14 released! Oracle today released a 6.1 maint

www.virtualbox.org

virtualbox 다운

www.offensive-security.com/

 

Home | Offensive Security

We create, host, maintain, and evolve some of the top free penetration testing tools for infosec professionals.

www.offensive-security.com

virtualbox 이미지 다운

 

 

가상화 설정 필 -> 안되어 있으면 bios에서 설정하기

amd일경우 svm mode를 enabled로

 

id: root, pw: toor

 

<한글보기>

apt-get install -y fonts-nanum

fc-cache -f -v

settings -> region&language -> 한국어 설정

 

<한글입력기 설정>

apt-get install -y nabi

apt-get install -y im-config

im-config

hangul옵션 선택

 

스냅샷 찍기

 

'공부일지 > 정보보안' 카테고리의 다른 글

커맨드 인젝션 공격  (0) 2020.09.30
브루트 포스 공격  (0) 2020.09.29
dvwa  (0) 2020.09.29
xampp설치 & dvwa설치 및 설정  (0) 2020.09.22

pagerank: 웹 문서의 상대적 중요도에 따라 가중치를 부여하는 방법

-> 서로간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.

-> pagerank가 높으면 다른 사이트가 참조를 많이 한 것으로 해석할 수 있음

 

TextRank: PageRank의 아이디어에서 착안, 문서내의 문장(단어)를 이용하여 문장의 Ranking을 계산하는 알고리즘

 

<문서 요약 프로세스>

문서 입력 -> 문장 단위 분리 -> NLP(품사태깅, 불용어 처리/ NN단위 추출) -> TF-IDF모델(Scikit-learn이용, 각 단어의 가중치 계산) -> 그래프 생성(Correlation Matrix) -> TextRank 적용 -> 요약

 

*문장단위 분리

Konlpy의 Kkma -> sentence()를 통해 분리

Konlpy의 Twitter를 통해 명사 추출(품사태깅)

 

*TF-IDF모델 생성

TF-IDF(Term Frequency - Inverse Document Frequency): 정보 검색(Information Retrieval)과 텍스트 마이닝에서 사용하는 단어의 상대적 가중치, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치

 

TF(Term Frequency): 단어 빈도, 특정 단어가 문서 내에서 얼만큼의 빈도로 등장하는지를 나타내는 척도

IDF(Inverse Document Frequency): 역문헌 빈도수, 문서 빈도의 역수/ 전체 문서 개수를 해당 단어가 포함된 문서의 개수로 나눈 것을 의미

-> Scikit-learn을 이용해 수행

-> Sentence-Term Matrix 생성

 

*그래프 생성

Correlation Matrix 생성 : Sentence-Term Matrix와 Transpose Matrix를 곱하여 생성

-> 그래프의 인접행렬로 간주, 가중치 그래프로 나타낼 수 있음

 

 

 

 

 

https://excelsior-cjh.tistory.com/93

'공부일지 > etc' 카테고리의 다른 글

link 1168 visual studio error  (0) 2020.10.13
파이썬 2차원 배열 정렬  (0) 2020.10.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22
Pandas  (0) 2020.07.21

https://webnautes.tistory.com/1247

 

음성인식, Google Cloud Speech-to-Text API 사용해보기

Cloud Speech API 서비스 계정 키를 발급받아서 샘플 코드를 실행하는 방법을 설명합니다. 마지막 업데이트 - 2018. 9. 20 1. Cloud Speech API 키 발급 받기 2. Cloud SDK 설치 3. 파이썬 예제 테스트 해보기 4...

webnautes.tistory.com

http://hleecaster.com/google-cloud-speech-to-text-api/

 

Google Speech-to-Text API를 활용해서 음성파일을 텍스트로 변환하자 (녹취록 받아적기 귀찮으니까) - �

파이썬과 구글 클라우드 speech-to-text API를 활용하여 녹취록을 스크립트로 변환해봤다. 긴(1분 이상) 오디오 파일 스크립트 작성 기능을 활용하는 예제를 첨부했다.

hleecaster.com

두 티스토리를 참고하여 진행.

Google colab을 이용하여 진행.

 

유의할 사항

1. 코랩에서 google-cloud-speech 설치

!pip install google-cloud-speech

2. 코랩에서 환경변수 설정

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = '/content/drive/My Drive/My First Project-8084512d8249.json'

3. timestamp저장하고 싶을 때

config에서 "enable_word_time_offsets": True로 설정해줘야 함

https://cloud.google.com/speech-to-text/docs/async-time-offsets?hl=ko

https://ebbnflow.tistory.com/153

 

[파이썬패키지] 자연어 처리를 위한 패키지3 - Gensim의 Word2Vec으로 토픽모델링

● Word2Vec 언어 모델링을 할 때, 언어(텍스트)를 신호 공간에 매핑(숫자로)하는 부분은 필수적입니다. 이러한 전처리를 단어 임베딩(Word Embedding)이라고 하는데 자연어 처리의 가장 기초적인 단계�

ebbnflow.tistory.com

 

'공부일지 > etc' 카테고리의 다른 글

파이썬 2차원 배열 정렬  (0) 2020.10.12
TextRank  (0) 2020.08.12
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22
Pandas  (0) 2020.07.21
Tensorflow in Practice 3, Sequence Model  (0) 2020.06.28

https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/

1. java 1.7+ 해당 버전 이상을 설정

2. JAVA_HOME 환경변수 설정 -> JDK폴더안, jvm.dll이 있는 디렉토리를 새 시스템 변수 주소로 설정

사용자 변수가 아닌 시스템 변수!

3. JPype 설치, 본인 컴퓨터의 파이썬 버전에 맞는 .whl파일을 다운로드 한 뒤 설치해야 한다.

즉, python 3.8버전을 쓰는 사람은 JPype-cp38버전을 다운 받아야 함. 

또한 window비트에 맞는 파일 다운 받는 것도 잊지 말기.

4. pip install konlpy

'공부일지 > etc' 카테고리의 다른 글

TextRank  (0) 2020.08.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
Pandas  (0) 2020.07.21
Tensorflow in Practice 3, Sequence Model  (0) 2020.06.28
Tensorflow in Practice 2, Natural Language Processing  (0) 2020.06.27

+ Recent posts