Apache License 인 파이썬 형태소 분석기를 위해 사전이 우선 필요하다고 판단되었다. 세종 프로젝트의 경우 이용이 불가능 하겠지만 기존 Apache 라이센스의 형태소 분석기를 잘 활용하면 사전을 구성할 수 있을 것 같다. 사용할 수 있는 것들은

arirang.morph ( https://github.com/korlucene/arirang.morph/tree/master/src/main/resources/org/apache/lucene/analysis/ko/dic , 이 소스의 라이센스는 불확실하지만 사전에는 Apache License 라고 분명히 전혀 있다. ) 

twitter-korean-text ( https://github.com/twitter/twitter-korean-text/tree/master/src/main/resources/com/twitter/penguin/korean/util ), 

komoran ( https://github.com/shin285/KOMORAN/tree/master/corpus_build ) 을 이용하면 Apache 라이센스의 사전을 구성할 수 있을 것 같다. 


 그리고 cc-by-sa 사전인 NIADic 을 이용할 수 있는지 의문이 생겨 https://olis.or.kr/ 에 가능여부를 문의했다. 기존 답변 사항을 보면 이 답변도 한달은 걸린 것 같다. 


 우선 Apache 라이센스의 형태소 사전을 잘 모은 후, 많은 후 처리 작업이 있을 것 같다. 가능하다면 단어에 따른 예문 같은게 있으면 좋을 것 같다. 그래서 CC-BY 인 블로그나 데이터를 수집하고 있다. 이를 바탕으로 형태소에 맞는 예문도 만들어 두고 싶다. 근데 계속 일이 커진다. 

 주시경(周時經, 1876년 12월 22일 ~ 1914년 7월 27일)은 조선의 언어학자이자 국문학자이다. 본관은 상주, 자는 경재(經宰), 호는 한힌샘이다.

(출처 : https://ko.wikipedia.org/wiki/%EC%A3%BC%EC%8B%9C%EA%B2%BD )


 세종대왕에 대해서는 많이 아는 것 같지만 주시경 선생님에 대해서는 많은 사람들이 모르는 것 같다. 이 분이 한글이라는 말을 처음 사용하였다. 

 프로젝트명으로 세종은 많이 사용하는 것 같다. 내가 지금 만드는 형태소 분석기는 주시경 선생님 이름을 이용하는게 좋을 것 같다. 


불쾌한 골짜기(uncanny valley) :  

  인간이 로봇이나 인간이 아닌 것들에 대해 느끼는 이론에 대한 이론으로

호감도가 인간과 비슷해 질 수록 증가하다가 어느지점에서 친근함보다는 섬득함, 어설픔, 을 느껴서 호감도가 떨어지는 지점임. 


  




위 그래프(위키피디아 https://commons.wikimedia.org/wiki/File:Mori_Uncanny_Valley_ko.svg?uselang=ko ) 에서 호감도는 증가하다가 갑자기 마이너스 까지 떨어지는 지점까지 존재한다. 






참고 : https://ko.wikipedia.org/wiki/%EB%B6%88%EC%BE%8C%ED%95%9C_%EA%B3%A8%EC%A7%9C%EA%B8%B0