linux 에서 apachefriends.org접속

 

dvwa가 php7에서는 동작하지 않으므로 5버전 설치

 

설치 이후 terminal 상에서 cd Downloads/ 이동

실행권한을 주기 위해 chmod +x ./xampp파일명

 

/opt/lampp/manager-linux-x64.run &

 

gedit /opt/lampp/etc/php.ini

-> allow_url_include = On 변경

 

이후 xampp에서 mysql, apache를 start& restart

 

----

dvwq

 

phpmyadmin -> databases -> createdatabase ->dvwa 이름 설정

unzip DVWA

mv DVWA /opt/lampp/htdocs/dvwa

 

localhost/dvwa/setup.php

-> 빨간글씨는 다시 설정해줘야한다는 것을 의미

<recaptcha설정 필요>

-> www.google.com/recaptcha/admin

dvwa, recaptcha2, localhost

-> 키 추출

 

gedit config/config.inc.php 에서 키 설정

 

<쓰기권한>

chmod 777 주소

 

'공부일지 > 정보보안' 카테고리의 다른 글

커맨드 인젝션 공격  (0) 2020.09.30
브루트 포스 공격  (0) 2020.09.29
dvwa  (0) 2020.09.29
virtual box & kali linux  (0) 2020.09.22

<설치>

www.virtualbox.org/

 

Oracle VM VirtualBox

Welcome to VirtualBox.org! News Flash Important August 3rd, 2020We're hiring! Looking for a new challenge? We're hiring a VirtualBox senior developer (Germany/Europe/USA). New September 4th, 2020VirtualBox 6.1.14 released! Oracle today released a 6.1 maint

www.virtualbox.org

virtualbox 다운

www.offensive-security.com/

 

Home | Offensive Security

We create, host, maintain, and evolve some of the top free penetration testing tools for infosec professionals.

www.offensive-security.com

virtualbox 이미지 다운

 

 

가상화 설정 필 -> 안되어 있으면 bios에서 설정하기

amd일경우 svm mode를 enabled로

 

id: root, pw: toor

 

<한글보기>

apt-get install -y fonts-nanum

fc-cache -f -v

settings -> region&language -> 한국어 설정

 

<한글입력기 설정>

apt-get install -y nabi

apt-get install -y im-config

im-config

hangul옵션 선택

 

스냅샷 찍기

 

'공부일지 > 정보보안' 카테고리의 다른 글

커맨드 인젝션 공격  (0) 2020.09.30
브루트 포스 공격  (0) 2020.09.29
dvwa  (0) 2020.09.29
xampp설치 & dvwa설치 및 설정  (0) 2020.09.22

pagerank: 웹 문서의 상대적 중요도에 따라 가중치를 부여하는 방법

-> 서로간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.

-> pagerank가 높으면 다른 사이트가 참조를 많이 한 것으로 해석할 수 있음

 

TextRank: PageRank의 아이디어에서 착안, 문서내의 문장(단어)를 이용하여 문장의 Ranking을 계산하는 알고리즘

 

<문서 요약 프로세스>

문서 입력 -> 문장 단위 분리 -> NLP(품사태깅, 불용어 처리/ NN단위 추출) -> TF-IDF모델(Scikit-learn이용, 각 단어의 가중치 계산) -> 그래프 생성(Correlation Matrix) -> TextRank 적용 -> 요약

 

*문장단위 분리

Konlpy의 Kkma -> sentence()를 통해 분리

Konlpy의 Twitter를 통해 명사 추출(품사태깅)

 

*TF-IDF모델 생성

TF-IDF(Term Frequency - Inverse Document Frequency): 정보 검색(Information Retrieval)과 텍스트 마이닝에서 사용하는 단어의 상대적 가중치, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치

 

TF(Term Frequency): 단어 빈도, 특정 단어가 문서 내에서 얼만큼의 빈도로 등장하는지를 나타내는 척도

IDF(Inverse Document Frequency): 역문헌 빈도수, 문서 빈도의 역수/ 전체 문서 개수를 해당 단어가 포함된 문서의 개수로 나눈 것을 의미

-> Scikit-learn을 이용해 수행

-> Sentence-Term Matrix 생성

 

*그래프 생성

Correlation Matrix 생성 : Sentence-Term Matrix와 Transpose Matrix를 곱하여 생성

-> 그래프의 인접행렬로 간주, 가중치 그래프로 나타낼 수 있음

 

 

 

 

 

https://excelsior-cjh.tistory.com/93

'공부일지 > etc' 카테고리의 다른 글

link 1168 visual studio error  (0) 2020.10.13
파이썬 2차원 배열 정렬  (0) 2020.10.12
google cloud speech-to-text 사용하기  (0) 2020.07.26
한국어 text generator만들어 보기 - konlpy 설치하기  (0) 2020.07.22
Pandas  (0) 2020.07.21

Topic Modeling에 이용되는 대표적인 알고리즘

Topic = 어떤 주제를 구성하는 단어들(추상적), 문서의 집합에서 토픽을 찾아내는 프로세스

-> 한 토픽을 설명하기 위해 특정 단어들이 이용 될 것, --> 이 단어 집합을 찾으려는 것이 토픽 모델링이다.

=> Word-level semantic clustering

 

토픽 분석시에 사용되는 텍스트 분석 기법

1. LSA: 분절된 단어들에 벡터값을 부여하고 차원 축소를 하여 축소된 차원에서 근접한 단어들을 주제로 묶음

2. LDA: 확률을 바탕으로 단어가 특정 주제에 존재할 확률가 문서에 특정 주제가 존재할 확률을 결합확률로 추정하여 토픽 추출

-> 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정. 데이터가 주어지면 LDA는 문서가 생성되던 과정을 역추적 

-> 각 문서의 토픽 분포와 각 토픽내의 단어 분포를 추정

-> LDA는 단어의 순서는 신경쓰지 않음



- TDM(Term Document Matrix)

: 문서에 나타난 단어를 표로 정리한 것

-> 단어가 문서에 몇 회 출현하였는지를 정리할 수 있음

-> tm패키지에서는 corpus라는 단위의 자료형을 사용

- corpus함수로 데이터를 corpus로 변환

- corpus로 데이터형태를 변환한 후 Term Document Matrix함수 사용

https://lovit.github.io/nlp/2018/09/27/pyldavis_lda/

https://junya906.blogspot.com/2018/11/topic-modeling-konlpy-nltk-gensim.html

https://m.blog.naver.com/PostView.nhn?blogId=rickman2&logNo=221334845853&proxyReferer=https:%2F%2Fwww.google.com%2F

(LSI)

https://bab2min.tistory.com/585

<LDA의 3가지 가정>

1. 문서는 여러 개의 토픽을 지닐 수 있고 한 문서는 특정 토픽을 얼마나 지녔는지의 확률 벡터로 표현된다.

2. 하나의 토픽은 해당 토픽에서 이용되는 단어의 비율로 표현된다.

3. 한 문서에서 특정 단어들이 이용될 가능성은 위의 두 확률 분포의 곱으로 표현된다.

 

LDA는 Probablistic Latent Semantic Indexing(pLSI)의 모델의 학습할 parameter의 개수를 줄여 over-fitting을 방지, 새로운 문서에 대한 topic vector를 inference할 수 있도록 개선한 모델

--> LDA의 이해는 pLSI의 이해부터 시작하는 것이 좋다.

 

단어를 dense vector의 형태로 표현하는 방법 == word embedding

dense vector를 word embedding결과라고 하여 embedding vector라고도 부름

 

 

+ Recent posts