예전부터 형태소 분석에 대해 관심이 많았다. 오래전 졸업작품으로 웹 크롤러와 명사 추출을 이용해서 간단한 검색엔진을 만들었다. 이 때, 명사 추출기보다 제대로된 형태소 분석기를 만들고 싶었다.
예전에는 공개된 형태소 분석기가 없었으나 요즘에는 공개된 형태소 분석기가 많아졌다. 때문에 많은 정보들이 공개되어 있고 공부할 수 있게 되었다. 그리고 세종프로젝트의 성과물이 공개되면서 이 자료를 활용할 수 있게 되었다. (세종 프로젝트 결과물은 https://ithub.korean.go.kr/user/main.do 에서 받을 수 있다. 해당 결과물을 다운 받기 위해서는 가입이 꼭 필요하다. )
그동안 공부한 것을 바탕으로 아파치 라이센스, 파이썬 형태소 분석기를 만들어 봐야겠다. 내가 그동안 한다고 생각만 하고 끝까지 못한게 너무 많은데. 이번에는 시간이 많아서 성과물을 만들어야 하겠다.
현재 파이썬 쪽에서 사용하는 형태소 분석기는 konlpy(http://konlpy-ko.readthedocs.io/) 이다. 이 형태소 분석기는 여러 형태소 분석기를 묶어두어서 사용하기 편하게 되어 있다. 이 중에서 순수 파이썬 분석기는 하나도 없고 대부분 자바로 되어 있고, JPype 를 이용해서 해당 jar 라이브러리를 이용하게 되어 있다. mecab-ko 의 경우 C++ 인데, 윈도우즈에서 사용이 불가능한 문제점이 있다. (난, 개발환경을 윈도우즈를 추구하는 편이다. )
성과물을 끝까지 만들어서 konlpy 에 내가 만든 형태소 분석기를 추가 했으면 좋겠다.