Apache License 인 파이썬 형태소 분석기를 위해 사전이 우선 필요하다고 판단되었다. 세종 프로젝트의 경우 이용이 불가능 하겠지만 기존 Apache 라이센스의 형태소 분석기를 잘 활용하면 사전을 구성할 수 있을 것 같다. 사용할 수 있는 것들은
arirang.morph ( https://github.com/korlucene/arirang.morph/tree/master/src/main/resources/org/apache/lucene/analysis/ko/dic , 이 소스의 라이센스는 불확실하지만 사전에는 Apache License 라고 분명히 전혀 있다. )
twitter-korean-text ( https://github.com/twitter/twitter-korean-text/tree/master/src/main/resources/com/twitter/penguin/korean/util ),
komoran ( https://github.com/shin285/KOMORAN/tree/master/corpus_build ) 을 이용하면 Apache 라이센스의 사전을 구성할 수 있을 것 같다.
그리고 cc-by-sa 사전인 NIADic 을 이용할 수 있는지 의문이 생겨 https://olis.or.kr/ 에 가능여부를 문의했다. 기존 답변 사항을 보면 이 답변도 한달은 걸린 것 같다.
우선 Apache 라이센스의 형태소 사전을 잘 모은 후, 많은 후 처리 작업이 있을 것 같다. 가능하다면 단어에 따른 예문 같은게 있으면 좋을 것 같다. 그래서 CC-BY 인 블로그나 데이터를 수집하고 있다. 이를 바탕으로 형태소에 맞는 예문도 만들어 두고 싶다. 근데 계속 일이 커진다.