1 개요
영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.
2 KoNLPy
2.1 설치
과정 | 설명 | 방법 | ||||||
---|---|---|---|---|---|---|---|---|
사전설치 | 형태소분석에 필요한 것들을 설치한다.
자바도 버전에 맞게 설치하자.(자바필수) |
| ||||||
라이브러리설치 | pip install konlpy |
2.2 사용
5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.
과정 | 설명 | 방법 | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
사용 | 텍스트 안의 단어들을 리스트에 담는다.
|
from konlpy.tag import Twitter
twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)
| ||||||||||||||||||
에러가 나는 경우 | jpype 관련 에러가 뜨면.. | pip install jpype1 |