1 개요
영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.
2 KoNLPy
http://konlpy.org/ko/latest
2.1 설치
과정
|
설명
|
방법
|
사전설치
|
형태소분석에 필요한 것들을 설치한다.
자바도 버전에 맞게 설치하자.
|
apt-get install g++ python-dev python3-dev openjdk-8-jdk
|
라이브러리설치
|
|
pip install konlpy
|
2.2 사용
5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.
과정
|
설명
|
방법
|
사용
|
텍스트 안의 단어들을 리스트에 담는다.
옵션
옵션
|
설명
|
norm
|
정규화 한다. '넼ㅋㅋㅋ'와 같은 단어를 '네'로 변환해준다.
|
stem
|
단어의 원형을 찾아준다. '나가'라는 단어를 '나가다'라고 변환.
|
결과
결과
|
설명
|
word[1]
|
결과
|
설명
|
'Josa'
|
조사
|
'Eomi'
|
어미
|
'Punctuation'
|
구두점
|
|
|
from konlpy.tag import Twitter
twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)
리스트 안의 요소의 1번 인덱스는 해당 단어가 조사인지, 어미인지 알려준다.
|
에러가 나는 경우
|
jpype 관련 에러가 뜨면..
|
pip install jpype1
|