어제 갑자기 세종 성과물을 이용해서 Apache 라이센스 프로그램을 만드는게 문제가 되지 않을까 하는 의심이 들었다. 그래서 직접 문의를 해보았다. 결론은 상업적인 이용이 가능하기 때문에 안된다는 것이었다. 결국 세종 성과물을 이용해서 Apache 라이센스의 형태소 분석기를 만드는 것이 어려울 것 같다. 기존의 형태석분석기도 세종 성과물을 이용하는 것으로 알고 있는데, 이런식으면 그런 것들이 문제가 되지 않나 하는 의심이 든다. 


저번에 글을 올린 형태소 CC BY SA 라이센스의 형태소 사전을 이용해서 사전리소스는 CC BY SA 로 하고 프로그램 소스는  Apache로 가는 방법이 있을 수 있을 것 같다. 아니면 직접 사전을 만드는 방법도 고려해봐야 하나.


 직접 사전을 만드는데 사용하는 글은 공개된 글이 아니어도 상관없는지 조금은 의심이 가긴 한다. 예전에 처음 국어사전이 만들어질때는 분명 모든 글을 모아서 그 쓰임을 분석하는 식으로 했을 것이다. 그러데, 그런 사전도 사실은 상업적인 글(소설이나 시, 신문 같은 것들)을 이용했기 때문에 라이센스에 문제가 있는 것은 아닌지 하는 의심이 든다. 


전체가 Apache 라이센스인 형태소 분석기를 만들려면 Public Domain 글들을 모아서 그 글안에서의 어절을 분석하고 어절에 따라서 형태소를 분리해서 사전을 만들기 전까지는 전체가 Apache 라이센스인 형태소 분석기는 어려울 것 같다. 



 우선은 Apache 라이센스인 형태소 분석기를 모아서, 그 사전의 데이터를 이용해 보는게 그래도 현실성 있을 것 같다.