오늘은/오늘은..
다시 형태소 분석기로...
한밀
2018. 3. 7. 00:10
원래 내 관심분야가 자주 바뀐다. 그래도 다행인 것은, 그 관심분야가 다시 돌아 온다는 것이다.
다시 형태소 분석기에 집중해야겠다. 세종 성과물 사용의 제약사항(http://yiunsr.tistory.com/743?category=195083) 때문에 잠시 멈춰두었으나 다시 시작해야겠다.
우선은 Apache 라이센스 한국어 형태소 사전부터 만들 생각이다. 기존의 Apache 라이센스로 만들어진 형태소 분석기의 사전 데이터를 가져와서 잘 정리해서 새로운 Apache 라이센스 사전 데이터로 만들고 있다. 이게 잘 되면 다음 단계로 세종성과물에 맞춰진 프로그램은 다시 많이 개조해야 할 것 같다.
현재는 어절내 체언+조사 분리와 어간+어미분리(불규칙 활용적용됨)를 통해 후보 형태소 분리가 되어 있다. 이 부분을 다시 수작으로 많이 해야 할 것 같다....
원래 하고 싶은 것은 채봇을 만들고 싶었을 뿐인데.... 여기에 꽂혀서... 이거부터 해야 할 것 같다.