국립국어원 언어정보나눔터(https://ithub.korean.go.kr/) 를 보면 세종프로젝트에 따른 성과물이 공개되어 있습니다. 여기에는 참조할만한 데이터는 크게 3가지 입니다.
전자사전 파일( XML 로 되어 있으므로 이를 파싱해서 분석하면 형태소별 단어 리스트와 그 안의 예제 및 정보들을 획득할 수 있습니다. ), 구어와 문어 말뭉치 파일(현대구어 - 형태분석 말뭉치, 현대문어 - 구문분석 말뭉치), 기타 참고문서 파일이 있습니다. 기타 참고자료의 경우 가장 도움이 되는 문서는 형태소분석의이해_2006.pdf(https://ithub.korean.go.kr/user/total/referenceView.do) 가 형태소 분석기를 만드는데 매우 도움이 된다. 그리고 이 사이트에는 없지만 전자사전 파일 구조에 대해서 "21세기 세종계획"(http://policy.nl.go.kr/search/searchDetail.do?rec_key=UH1_00000078412789) 에 대해서 어느정도 설명이 되어 있다. 다만 이 문서는 현재의 XML 문서가 아니라서 없는 정보도 있고 attribute name 이 규칙이 잘못적용되어 있는 경우도 있다.
이 문서들은 만든 주체들이 달라서 관점이 다를 수 있다. 전자사전 파일과 말뭉치 분석때 사용한 형태소 종류가 다를 수도 있다. 그리고 말뭉치에서 파일에는 있지만 전자사전 파일에 없는 경우도 많다. 형태소 분석기때 필요한 사전 리스트를 만들기 위해서는 이 두 데이터를 합쳐야 할 필요가 있다.