오랫만에 다시 형태소 관련 포스팅이다. 요즘 우선 사전 정리부터 시작하고 있는데,  Apache 라이센스로 만들어진 형태소 분석기에 리소스로 있는 사전과 CC-BY-SA로  배포된 NIADic(https://kbig.kr/?q=%EC%A7%80%EC%8B%9D%EC%9E%90%EB%A3%8C%EC%8B%A4/16451 ) 을 묶어서 괜찮은 사전 리소스로 만드는 작업을 진행 중이다. 그러던 중 NIADict 이 Kaist 형태소 태그셋을 이용하는 것 같아 보였고 이에 대해 분석중 좀 태그 pos 가 좀 이상하다는 것을 발견해서 수정중이다.


 이러한 이유로 Kaist 형태소 태그를 보고 있는데(http://semanticweb.kaist.ac.kr/org/bora/data/kaisttagset.pdf ), 유난히 지시로 시작하는 품사들이 발견되어 공부중이다. 이러한 형태소는 지시대명사, 지시동사, 지시형용사, 지시부사, 지시관형사가 있었다. 


지시라는 말 자체를 따져보면 뭘가 가르키는 대상이 있을 때 붙는 것 같다. 그래서 대부분 이, 그, 저 로 시작하는 형태이다. 


지시 대명사는 이,그,저 같은 형태로 시작하는 대명사이다. (https://ko.wikipedia.org/wiki/%EB%8C%80%EB%AA%85%EC%82%AC#%EC%A7%80%EC%8B%9C%EB%8C%80%EB%AA%85%EC%82%AC ). 

 이것, 저것, 그것,  여기, 요것 , 이곳 같은 것들이다. 


그리고 이런 형태가 체언 앞에 꾸미는 형태로 나타나면 지시 관형사가 된다. 

" 책은 누구 것인가?  " 했을 때  이, 그, 저 같은 것들이 있다. 그리고 한자어 계열 본, 당, 귀 같은 것도 지시 관형사이다.
 ( https://ratsgo.github.io/korean%20linguistics/2017/06/28/nounad/ )

" 사는 청에서 실시하는 아래 입찰 건에 대하여 입찰참가 권유를 승낙합니다. "


의문사, 부정사 같은 형태도 지시 관형사가 될 수 있다. ( https://klas.khu.ac.kr/common/downloadFile.do?fileId=FIL_1210101310184ec92ced )

ex) 어느, 무슨, 웬, 아무, 어떤    



지시부사도 비슷하게 ‘이리’, ‘그리’  로 처소나 시간을 가리켜 한정하거나 앞의 이야기에 나온 사실을 가리키는 부사다.

http://www.korean.go.kr/front/onlineQna/onlineQnaView.do?mn_id=61&qna_seq=105589 )


더 자세히는 아래와 같은 것들이 있다. 

장소부사: 이리, 그리, 저리, 요리, 고리, 조리, 여기, 거기, 저기, 멀리, 가까이, ···

시간부사: 오늘, 어제, 내일, 지금, 방금, 금방, 아까, 이미, 벌써, 이제, 장차, 미리, ···

의문부사: 어찌, 어디(서), 언제, 왜, ·
https://klas.khu.ac.kr/common/downloadFile.do?fileId=FIL_1510282102547d9c32ba )



지시동사도  '이리하다', '저리하다' 같은 형태이다.

다른 동사나 동사구를 대신하는 동사로 이리하다/이러다, 그리하다/그러다, 저리하다/저러다, 어찌하다/어쩌다 같은게 있다.
ex) 철수가 웃으며 걸어 나온다. 영수도 그리한다/그런다. 

https://klas.khu.ac.kr/common/downloadFile.do?fileId=FIL_1510282102547d9c32ba )



지시형용사도 이러하니/이러니, 저러하니/저러니, 그렇러하니/그러니, 어떠하니/어떠니 같은 형태이다.


ex) 오늘은 기분이 나쁘다. 이러하니/이러니 오늘은 밖에 나가지 말아야겠다.

https://klas.khu.ac.kr/common/downloadFile.do?fileId=FIL_1510282102547d9c32ba )





지시형은 결과적으로 이, 그, 저 같은 뭔가 지칭하는 대상이 있거나  어떠, 무엇 처럼 의문을 가진 형태를 따로 나타내는 것으로 보인다. 






https://olis.or.kr/consulting/qnaDetail.do?bbsNum=27163


문의사항 : 

한글형태소 사전 NIADic(저작자표시-동일조건변경허락 2.0 (CC BY-SA),  https://kbig.kr/index.php?page=0&sv=title&sw=&q=knowledge/pds_&tgt=view&page=1&idx=16451&sw=&sv=title) 를 이용해서 아파치 라이센스의 형태소 분석기를 만들려고 합니다.
이 경우 사전부분과 실제코드부분을 다른 라이센스를 적용해도 문제 없는지 궁금합니다.           


전문가의 의견:

사전부분과 실제코드부분을 다른 라이선스를 적용해도 문제가 없습니다. 사전은 데이터이고 코드를 프로그램이기 때문입니다.



된다는 답변을 받았다. 

음, 요즘 아파치라이센스 사전데이터를 정리하고 있었는데. 

하던 정리는 계속 해봐야겠다. 

  어제 갑자기 세종 성과물을 이용해서 Apache 라이센스 프로그램을 만드는게 문제가 되지 않을까 하는 의심이 들었다. 그래서 직접 문의를 해보았다. 결론은 상업적인 이용이 가능하기 때문에 안된다는 것이었다. 결국 세종 성과물을 이용해서 Apache 라이센스의 형태소 분석기를 만드는 것이 어려울 것 같다. 기존의 형태석분석기도 세종 성과물을 이용하는 것으로 알고 있는데, 이런식으면 그런 것들이 문제가 되지 않나 하는 의심이 든다. 


저번에 글을 올린 형태소 CC BY SA 라이센스의 형태소 사전을 이용해서 사전리소스는 CC BY SA 로 하고 프로그램 소스는  Apache로 가는 방법이 있을 수 있을 것 같다. 아니면 직접 사전을 만드는 방법도 고려해봐야 하나.


 직접 사전을 만드는데 사용하는 글은 공개된 글이 아니어도 상관없는지 조금은 의심이 가긴 한다. 예전에 처음 국어사전이 만들어질때는 분명 모든 글을 모아서 그 쓰임을 분석하는 식으로 했을 것이다. 그러데, 그런 사전도 사실은 상업적인 글(소설이나 시, 신문 같은 것들)을 이용했기 때문에 라이센스에 문제가 있는 것은 아닌지 하는 의심이 든다. 


전체가 Apache 라이센스인 형태소 분석기를 만들려면 Public Domain 글들을 모아서 그 글안에서의 어절을 분석하고 어절에 따라서 형태소를 분리해서 사전을 만들기 전까지는 전체가 Apache 라이센스인 형태소 분석기는 어려울 것 같다. 



 우선은 Apache 라이센스인 형태소 분석기를 모아서, 그 사전의 데이터를 이용해 보는게 그래도 현실성 있을 것 같다.