바뀜

둘러보기로 가기 검색하러 가기
1,391 바이트 추가됨 ,  2021년 4월 29일 (목) 19:50
새 문서: == 개요 == 영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에...
== 개요 ==
영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.

== KoNLPy ==
http://konlpy.org/ko/latest

=== 설치 ===
{| class="wikitable"
!과정
!설명
!방법
|-
|사전설치
|형태소분석에 필요한 것들을 설치한다.
자바도 버전에 맞게 설치하자.
|apt-get install g++ python-dev python3-dev openjdk-8-jdk
|-
|라이브러리설치
|
|pip install konlpy
|}

=== 사용 ===
5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.
{| class="wikitable"
!과정
!설명
!방법
|-
|사용
|텍스트 안의 단어들을 리스트에 담는다.
{| class="wikitable"
|+옵션
!옵션
!설명
|-
|norm
|정규화 한다. '넼ㅋㅋㅋ'와 같은 단어를 '네'로 변환해준다.
|-
|stem
|단어의 원형을 찾아준다. '나가'라는 단어를 '나가다'라고 변환.
|}
|<syntaxhighlight lang="python">
from konlpy.tag import Twitter

twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)
</syntaxhighlight>
|-
|에러가 나는 경우
|jpype 관련 에러가 뜨면..
|pip install jpype1
|}
[[분류:텍스트 분석]]

둘러보기 메뉴