지난번에 형태소 분석 프로그램을 만들기 위해서는 많은 문장에 대한 분석 데이터가 필요함을 알 수 있었다. 그리고 형태소별 사전도 필요함을 예상해볼 수 있다. 문장 분석 데이터를 만들기 위해서는 결국 일일이 사람의 손으로 형태소를 분석해 두어야 한다. 그래야 기분석 사전을 만들수도 있고, 형태소사전을 만들 수 있고, 통계정보 수집이 가능하다.
다행히 국립국어원 언어정보나눔터(https://ithub.korean.go.kr)에서는 이런 사전정보와 형태소를 분석한 데이터를 제공하고 있다. 해당 데이터는 실제 출판되는 소설 데이터도 있으므로 함부로 유포할 수 없어서 내 블로그에 올릴 수 없으니 해당 사이트에서 다운 받기 바란다. 국립국어원 언어정보나눔터에 있는 대로 형태소를 분석해서 사용하려면 그대로 이용가능하겠지만 그 형태소와 조금 다르게 사용할려면 조금 다른 동작이 많이 필요할 수는 있다.
형태소관련 데이터를 수집하기 위해서는 전자사전 카테고리에 있는 체언상세 이런 데이터를 다운받아서 XML 분석을 할 필요가 있다. 해당 zip 파일을 풀면 폴더명이 체언명이고 그 안에 데이터가 있다. 그 XML 데이터가 뭔지 이해하기 위해서는 통합자료실->사업보고서에서 "2007 전자사전 개발 결과 보고서"를 검색해서 해당문서를 읽어보면된다. 명사를 좀더 세밀하게 구별하기 위해서는 해당 파일안의 XML을 잘 이용하면 가능할 것으로 보인다. "2007 전자사전 개발 결과 보고서" 를 보면 <sem_class> 라는 항목이 있는데, 이 항목을 잘 이용하면 명사를 서술성명사와 비서술성명사로 구별 할 수 있어보인다. 잘 이용하면 더 세분화도 가능할 것 같다. 해당 문서를 잘 읽어서 활용한다면 형태소 분석기 만드는데 큰 도움이 될 것으로 보인다. sem_classs 내 항목을 더 자세히 확인 하기 위해서는 20세기 한글 관련 연구과제 개발을 위한 조사연구(http://www.prism.go.kr/homepage/entire/retrieveEntireDetail.do?research_id=1371000-201600017) 내에 "2005년도 확장․보완된 세종 명사 의미부류 체계"를 확인 하면 된다.
기분석 데이터나 통계 데이터 수집을 위해서는 "현대구어 - 형태분석 말뭉치" 나 "현대구어 - 형태분석 말뭉치" 를 잘 이용하면 된다.
이 데이터들은 XML 이라서 XML 처리만 잘한다면 어느정도 간단한 형태의 형태소분석기를 만들 수 있을 것 같다. 물론, 전에 말했다시피 불규칙활용, 복합어, 띄어쓰기등의 문제 때문에 파싱확률을 높이기 위해서는 많은 작업이 필요할 것이다.
내가 만들려는 형태소분석기의 경우, 세종프로젝트에서 사용하는 형태소 보다 조금 더 상세한 형태소를 사용하려고 한다. 이를 위해 느슨한 형태의 형태소 분석기를 만든다음에 샘플데이터를 분석하고, 다시 이 데이터를 수동으로 분석해서 문장별 형태소 분석결과를 만들어 두어야 할 것 같다. 뭔가 많은 일이 필요할 것 같다.