형태소 분석

1 개요

영어의 경우엔 띄어쓰기로 단어를 구분할 수 있지만, 한국어는 조사가 붙어있어 띄어쓰기만으로는 단어분류가 어렵다. 때문에 한국어 문장을 분석하여 형태소라는 최소단위로 분석하는 방법에 대해 다룬다.

과정	설명	방법
사전설치	형태소분석에 필요한 것들을 설치한다. 자바도 버전에 맞게 설치하자.	apt-get install g++ python-dev python3-dev openjdk-8-jdk
라이브러리설치		pip install konlpy

5개의 형태소 분석기를 사용할 수 있다. 아래 설명에서 Twitter를 다른 형태소 이름으로 바꿔주면 된다.

과정

설명

방법

사용

텍스트 안의 단어들을 리스트에 담는다.

옵션
옵션	설명
norm	정규화 한다. '넼ㅋㅋㅋ'와 같은 단어를 '네'로 변환해준다.
stem	단어의 원형을 찾아준다. '나가'라는 단어를 '나가다'라고 변환.

결과

설명

word[1]

from konlpy.tag import Twitter

twitter = Twitter()
word_list = twitter.pos('분석할 텍스트', norm=True, stem=True)

리스트 안의 요소의 1번 인덱스는 해당 단어가 조사인지, 어미인지 알려준다.

에러가 나는 경우

jpype 관련 에러가 뜨면..

pip install jpype1