어제 갑자기 세종 성과물을 이용해서 Apache 라이센스 프로그램을 만드는게 문제가 되지 않을까 하는 의심이 들었다. 그래서 직접 문의를 해보았다. 결론은 상업적인 이용이 가능하기 때문에 안된다는 것이었다. 결국 세종 성과물을 이용해서 Apache 라이센스의 형태소 분석기를 만드는 것이 어려울 것 같다. 기존의 형태석분석기도 세종 성과물을 이용하는 것으로 알고 있는데, 이런식으면 그런 것들이 문제가 되지 않나 하는 의심이 든다. 


저번에 글을 올린 형태소 CC BY SA 라이센스의 형태소 사전을 이용해서 사전리소스는 CC BY SA 로 하고 프로그램 소스는  Apache로 가는 방법이 있을 수 있을 것 같다. 아니면 직접 사전을 만드는 방법도 고려해봐야 하나.


 직접 사전을 만드는데 사용하는 글은 공개된 글이 아니어도 상관없는지 조금은 의심이 가긴 한다. 예전에 처음 국어사전이 만들어질때는 분명 모든 글을 모아서 그 쓰임을 분석하는 식으로 했을 것이다. 그러데, 그런 사전도 사실은 상업적인 글(소설이나 시, 신문 같은 것들)을 이용했기 때문에 라이센스에 문제가 있는 것은 아닌지 하는 의심이 든다. 


전체가 Apache 라이센스인 형태소 분석기를 만들려면 Public Domain 글들을 모아서 그 글안에서의 어절을 분석하고 어절에 따라서 형태소를 분리해서 사전을 만들기 전까지는 전체가 Apache 라이센스인 형태소 분석기는 어려울 것 같다. 



 우선은 Apache 라이센스인 형태소 분석기를 모아서, 그 사전의 데이터를 이용해 보는게 그래도 현실성 있을 것 같다. 



 어제 인터넷을 검색하다가 공개된 한국어 형태소 사전리스트를 발견했다. 

https://kbig.kr/index.php?page=0&sv=title&sw=&q=knowledge/pds_&tgt=view&page=1&idx=16451&sw=&sv=title

라이센스가 리에이티브 커먼즈 저작자표시- 동일조건변경허락 2.0 국제 라이선스(CC BY-SA)​ 이다. 꽤 오래전에 공개된 것으로 보이는데 이제야 발견했다. 


해당 설명이 너무 부족해서 형태소 기호가 뭔지 모르겠으나 한나눔으로 추정된다. 고유명사 데이터도 많고, 고유명사내 따로 분류가 있는 것도 꽤 좋다. 그리고 분류도 세종성과물보다 더 상세하다. 다만 통계정보가 없다. 그래서 기종 세종성과물과 잘 결합해야 할 것 같다. 



PS : 다시 잘 생각해보니 CC BY-SA 라는 라이센스 때문에 다른 성과물과 결합하기가 좀 문제가 있는 것 같다. 세종성과물은 CC BY-NC-ND 인데 두 라이센스가 호환이 안되기 때문에 둘이 결합하기 어려울 것 같다. 

 지난 번에 조사와 어미에 대해 정리했다. 어절을 구성하는데에는 단일어이거나 조사로 끝나거나, 어미로 끝나는 경우가 대부분이다. 단일어일 경우 사전에서 찾으면 되지만 조사로 끝나거나 어미로 끝나는 경우 추가적인 분석이 필요하다. 조사로 끝나는 경우 대표적인 경우는 체언이고 체언이 아니더라도 체언역할을 한다고 생각할 수 있다. 그냥 단순 체언인 경우 조사를 제외한 부분에 대해서는 사전에서 찾으면 될 것이고, 체언역할을 하는 경우데 대해서는 추가적인 분석이 필요하다. 그래서 이런 체언역할을 하는 형태소 조합에 대해서 찾아보자. 


 세종 말뭉치분석 데이터(구어와 문어 말뭉치 파일)에서 조사로 끝나는 단어를 찾아서 그 형태소를 찾아보았다. 

해당분류와 기호는 세종 기호( https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 에서 Sejong project (ntags=42) 임) 를 따르고 있다. 



복합명사형태


XPN(체언 접두사), XSN(명사파생 접미사), XR(어근)과 NNG(일반명사), NNP(고유명사), NR(수사), NP(대명사), NNB(의존명사)가 어절내에서 결합해서 복합명사를 만드는 형태가 많다. 


XSN의 대표적인 것은 들/XSN,  적/XSN 등 이다. 책들(책/NNP+들/XSN), 세계적(세계/NNG+적/XSN) 처럼 기존명사뒤어서 붙여서 단어를 확장할 수 있다. 

XPN의 대표적인 것은 불/XPN,  비/XPN 등 이다.   불/XPN+평등/NNG, 비/XPN+공식/NNG 처럼 기존명사 앞에 붙여서 단어를 확장할 수 있다.

XR의 대표적인 것은 주요/XR, 정연/XR 등이다.   주요/XR+내용/NNG, 질서/NNG+정연/XR 처럼 기존명사 앞, 뒤에 붙여서 단어를 확장할 수 있다. 

위에 것들은 단독으로 사용할 수 없기 때문에 일반명사가 될수는 없다. 



일반적인 형태는 아래와 같다.(괄호로 있는 것은 있을 수도 있고, 없을 수도 있는 것이다.)

(XPN)+NNG+(XSN) :  비과학적(비/XPN+과학/NNG+적/XSN),   신제품(신/XPN+제품/NNG), 책들(책/NNG+들/XSN )

(XPN)+XR+(XSN) :  불확실성(불/XPN+확실/XR+성/XS), 저돌적(저돌/XR+적/XSN), 복잡성(복잡/XR+성/XSN)

(XPN)+NNG+NNG+(XSN) : 비영리단체들(비/XPN+영리/NNG+단체/NNG+들/XSN), 초국적기업(초/XPN+국적/NNG+기업/NNG),  

                                    택시기사들(택시/NNG+기사/NNG+들/XSN)

(XPN)+NNG+NNB+(XSN) : 무의식간(무/XPN+의식/NNG+간/NNB),  고전주의자들(고전주의/NNG+자/NNB+들/XSN),  

                                    좌우측(좌우/NNG+측/NNB)

(XPN)+NNG+NNG+NNB+(XSN) : 비영리단체간(비/XPN+영리/NNG+단체/NNG+간/NNB), 다음주중(다음/NNG+주/NNG+중/NNB)

(XPN)+NR+NNB+(XSN) : 제일차간(제/XPN+일/NR+차/NNB), 사년생(사/NR+년/NNB+생/XSN), 백일(백/NR+일/NNB)

NR+NNB+NNG : 일년동안(일/NR+년/NNB+동안/NNG)

(XPN)+SN+NNB+NNG+(XSN) : 제2차대전(제/XPN+2/SN+차/NNB+대전/NNG), 5년임기제(5/SN+년/NNB+임기/NNG+제/XSN)

(XPN)+SN+NNB+(XSN)  : 제1차적(제/XPN+1/SN+차/NNB+적/XSN), 제1권(제/XPN+1/SN+권/NNB), 5시경(5/SN+시/NNB+경/XSN)


기타 조합들

한국종합기술금융주식회사법(한국/NNP+종합/NNG+기술/NNG+금융/NNG+주식회사/NNG+법/NNG)

특정범죄가중처벌죄상(특정/NNG+범죄/NNG+가중/NNG+처벌/NNG+법/NNG+상/XSN)


복합명사를 조합해서 Regular Expression 으로 표시하면 

^(?:XPN)?(?:XR|NNP|NNG|SN|NNB|NR|XSN|\+)+$ 이런 형태이다.




관형사 형태가 합쳐진 형태

어떻게 보면 두 어절이 뛰어쓰기 없이 합쳐진 형태로 보이긴 한다. 

그때쯤(그/MM+때/NNG+쯤/XSN), 한사람(한/MM+사람/NNG), 아무거(아무/MM+거/NNB), 여러가지(여러/MM+가지/NNB)


관형사는 아니지만 관형사형태를 취하는 것으로 관형사형 전성어미와 결합된 용언형태가 있다.

ETM(관형사형전성어미) : 는/ETM, ㄴ/ETM 등이 있다. 주는(주/VV+는/ETM),  다른(다르/VA+ㄴ/ETM),  말하는(말/NNG+하/XSV+는/ETM) 처럼 용언이나 용언역할을 하는 형태소 뒤에 붙어 관형사를 만든다. 

관형사형태를 취하는 경우도 일반명사와 결합하여 체언을 만든다.

파란불(파랗/VA+ㄴ/ETM+불/NNG, ㅎ불규칙활용이 적용되었다.), 할말(하/VV+ㄹ/ETM+말/NNG), 빈그릇(비/VV+ㄴ/ETM+그릇/NNG)


기타 조합 : 

국내총생산(국내/NNG+총/MM+생산/NNG), 주식순매수(주식/NNG+순/MM+매수/NNG), 

눈코뜰새(눈코/NNG+뜨/VV+ㄹ/ETM+새/NNG), 발디딜틈(발/NNG+디디/VV+ㄹ/ETM+틈/NNG)


기타 조합에서 보듯이 MM+명사,  VA+ETM+명사, VV+ETM +명사  조합도 마치 복합명사 결합하듯이 체언으로 결합하는 것을 볼 수 있다.



명사형 전성어미로 끝나는 형태

ETN(명사형전성어미) : 기/ETN, ㅁ/ETN 등이고 걷기(걷/VV+기/ETN), 다름(다르/VA+ㅁ/ETN ) 처럼 사용될 수 있다. 용언형태(형용사, 동사 뿐만 아니라 체언+동사,형용사 파생접미사도 용언형태이다.)뒤에 붙어 체언처럼 만든다.

명사형 전성어미가 붙은 경우, 경우에 따라서 그 결합자체가 명사로 사용될 수도 있다. 걷기는 걷다의 걷과 명사형 전성어미가 붙은 단어이지만 이 자체로도 하나의 명사처럼 사용될 수 있다. 명사와의 차이점은 내가 사용하는 단일어 사전에 존재하면 명사로 취급하면 되는 것이고 없으면 명사형전성어미가 붙은 형태로 생각하면 될것이다.



일반적인 형태는 아래와 같다.

  VV+ETN : 알림(알리/VV+ㅁ/ETN), 옮기기(옮기/VV+기/ETN)

  VA+ETN : 부러움(부럽/VA+ㅁ/ETN, ㅂ불규칙 활용이 적용되었다.) , 없음(없/VA+음/ETN)

  VV+ETN+NNG : 걷기운동(걷/VV+기/ETN+운동/NNG), 돕기운동(돕/VV+기/ETN+운동/NNG)

기타 조합

불우이웃돕기(불우/NNG+이웃/NNG+돕/VV+기/ETN), 글쓰기(글/NNG+쓰/VV+기/ETN)

VV+ETN 자체가 하나의 체언처럼 동작한다. VV+ETN가 명사와 결합하는 것을 보면 이 형태가 또 다시 복합명사처럼 조합할 수 있다.