바뀜

1,273 바이트 추가됨 , 2021년 4월 29일 (목) 22:36

새 문서: == 개요 == 컴퓨터는 단어, 단어와 단어 사이의 관계를 이해하지 못한다. 단지 숫자를 이해할 수 있을 뿐인데, 이를 위하여 단어를 벡터로...

== 개요 ==
컴퓨터는 단어, 단어와 단어 사이의 관계를 이해하지 못한다. 단지 숫자를 이해할 수 있을 뿐인데, 이를 위하여 단어를 벡터로 변환하는 과정이 필요하다.

== Gensim ==
자연어 처리를 위한 라이브러리인데, Word2Vec을 구현하는 도구로 많이 쓰인다.

=== 설치 ===
pip install gensim

=== 사용 ===
{| class="wikitable"
!과정
!설명
!방법
|-
|텍스트 읽고 모델 만들고 저장하기
|
|<syntaxhighlight lang="python">
from gensim.models import word2vec

file = ... # 텍스트 파일을 열거나 저장한다.
data = word2vec.LineSentence(file) # 파일을 연다.
model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)]
model.save('경로') # 작성한 모델을 저장한다.
</syntaxhighlight>
|-
|모델 불러오기
|
|<syntaxhighlight lang="python">
from gensim.models import word2vec

model = word2vec.Word2Vec.load("경로")
</syntaxhighlight>
|-
|유사단어 확인
|단어와 가장 유사한 단어를 찾아준다.
positive와 negative를 사용하여 검색이 가능하다.
|<syntaxhighlight lang="python">
from gensim.models import word2vec

model.most_similar(positive=['단어'])
</syntaxhighlight>
|}
[[분류:텍스트 분석]]

Sam

사무관, 인터페이스 관리자, 관리자, 교사

편집

1,419

번

바뀜

텍스트 벡터화 (편집)

2021년 4월 29일 (목) 22:36 판