형태소 분석
둘러보기로 가기
검색하러 가기
1 개요[편집 | 원본 편집]
영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.
2 KoNLPy[편집 | 원본 편집]
2.1 사용[편집 | 원본 편집]
5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.
과정 | 설명 | 방법 | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
사용 | 텍스트 안의 단어들을 리스트에 담는다.
|
from konlpy.tag import Twitter
twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)
| ||||||||||||||||||
에러가 나는 경우 | jpype 관련 에러가 뜨면.. | pip install jpype1 |
아직 정리가 안되었는데... 형태소분석기 이용에 대해선 Wordcloud를 참고하자.