형태소 분석

Pywiki
둘러보기로 가기 검색하러 가기

1 개요[편집 | 원본 편집]

영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.

2 KoNLPy[편집 | 원본 편집]

http://konlpy.org/ko/latest

2.1 사용[편집 | 원본 편집]

5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.

과정 설명 방법
사용 텍스트 안의 단어들을 리스트에 담는다.
옵션
옵션 설명
norm 정규화 한다. '넼ㅋㅋㅋ'와 같은 단어를 '네'로 변환해준다.
stem 단어의 원형을 찾아준다. '나가'라는 단어를 '나가다'라고 변환.
결과
결과 설명
word[1]
결과 설명
'Josa' 조사
'Eomi' 어미
'Punctuation' 구두점
from konlpy.tag import Twitter

twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)
리스트 안의 요소의 1번 인덱스는 해당 단어가 조사인지, 어미인지 알려준다.
에러가 나는 경우 jpype 관련 에러가 뜨면.. pip install jpype1

아직 정리가 안되었는데... 형태소분석기 이용에 대해선 Wordcloud를 참고하자.