지난 번에 조사와 어미에 대해 정리했다. 어절을 구성하는데에는 단일어이거나 조사로 끝나거나, 어미로 끝나는 경우가 대부분이다. 단일어일 경우 사전에서 찾으면 되지만 조사로 끝나거나 어미로 끝나는 경우 추가적인 분석이 필요하다. 조사로 끝나는 경우 대표적인 경우는 체언이고 체언이 아니더라도 체언역할을 한다고 생각할 수 있다. 그냥 단순 체언인 경우 조사를 제외한 부분에 대해서는 사전에서 찾으면 될 것이고, 체언역할을 하는 경우데 대해서는 추가적인 분석이 필요하다. 그래서 이런 체언역할을 하는 형태소 조합에 대해서 찾아보자. 


 세종 말뭉치분석 데이터(구어와 문어 말뭉치 파일)에서 조사로 끝나는 단어를 찾아서 그 형태소를 찾아보았다. 

해당분류와 기호는 세종 기호( https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 에서 Sejong project (ntags=42) 임) 를 따르고 있다. 



복합명사형태


XPN(체언 접두사), XSN(명사파생 접미사), XR(어근)과 NNG(일반명사), NNP(고유명사), NR(수사), NP(대명사), NNB(의존명사)가 어절내에서 결합해서 복합명사를 만드는 형태가 많다. 


XSN의 대표적인 것은 들/XSN,  적/XSN 등 이다. 책들(책/NNP+들/XSN), 세계적(세계/NNG+적/XSN) 처럼 기존명사뒤어서 붙여서 단어를 확장할 수 있다. 

XPN의 대표적인 것은 불/XPN,  비/XPN 등 이다.   불/XPN+평등/NNG, 비/XPN+공식/NNG 처럼 기존명사 앞에 붙여서 단어를 확장할 수 있다.

XR의 대표적인 것은 주요/XR, 정연/XR 등이다.   주요/XR+내용/NNG, 질서/NNG+정연/XR 처럼 기존명사 앞, 뒤에 붙여서 단어를 확장할 수 있다. 

위에 것들은 단독으로 사용할 수 없기 때문에 일반명사가 될수는 없다. 



일반적인 형태는 아래와 같다.(괄호로 있는 것은 있을 수도 있고, 없을 수도 있는 것이다.)

(XPN)+NNG+(XSN) :  비과학적(비/XPN+과학/NNG+적/XSN),   신제품(신/XPN+제품/NNG), 책들(책/NNG+들/XSN )

(XPN)+XR+(XSN) :  불확실성(불/XPN+확실/XR+성/XS), 저돌적(저돌/XR+적/XSN), 복잡성(복잡/XR+성/XSN)

(XPN)+NNG+NNG+(XSN) : 비영리단체들(비/XPN+영리/NNG+단체/NNG+들/XSN), 초국적기업(초/XPN+국적/NNG+기업/NNG),  

                                    택시기사들(택시/NNG+기사/NNG+들/XSN)

(XPN)+NNG+NNB+(XSN) : 무의식간(무/XPN+의식/NNG+간/NNB),  고전주의자들(고전주의/NNG+자/NNB+들/XSN),  

                                    좌우측(좌우/NNG+측/NNB)

(XPN)+NNG+NNG+NNB+(XSN) : 비영리단체간(비/XPN+영리/NNG+단체/NNG+간/NNB), 다음주중(다음/NNG+주/NNG+중/NNB)

(XPN)+NR+NNB+(XSN) : 제일차간(제/XPN+일/NR+차/NNB), 사년생(사/NR+년/NNB+생/XSN), 백일(백/NR+일/NNB)

NR+NNB+NNG : 일년동안(일/NR+년/NNB+동안/NNG)

(XPN)+SN+NNB+NNG+(XSN) : 제2차대전(제/XPN+2/SN+차/NNB+대전/NNG), 5년임기제(5/SN+년/NNB+임기/NNG+제/XSN)

(XPN)+SN+NNB+(XSN)  : 제1차적(제/XPN+1/SN+차/NNB+적/XSN), 제1권(제/XPN+1/SN+권/NNB), 5시경(5/SN+시/NNB+경/XSN)


기타 조합들

한국종합기술금융주식회사법(한국/NNP+종합/NNG+기술/NNG+금융/NNG+주식회사/NNG+법/NNG)

특정범죄가중처벌죄상(특정/NNG+범죄/NNG+가중/NNG+처벌/NNG+법/NNG+상/XSN)


복합명사를 조합해서 Regular Expression 으로 표시하면 

^(?:XPN)?(?:XR|NNP|NNG|SN|NNB|NR|XSN|\+)+$ 이런 형태이다.




관형사 형태가 합쳐진 형태

어떻게 보면 두 어절이 뛰어쓰기 없이 합쳐진 형태로 보이긴 한다. 

그때쯤(그/MM+때/NNG+쯤/XSN), 한사람(한/MM+사람/NNG), 아무거(아무/MM+거/NNB), 여러가지(여러/MM+가지/NNB)


관형사는 아니지만 관형사형태를 취하는 것으로 관형사형 전성어미와 결합된 용언형태가 있다.

ETM(관형사형전성어미) : 는/ETM, ㄴ/ETM 등이 있다. 주는(주/VV+는/ETM),  다른(다르/VA+ㄴ/ETM),  말하는(말/NNG+하/XSV+는/ETM) 처럼 용언이나 용언역할을 하는 형태소 뒤에 붙어 관형사를 만든다. 

관형사형태를 취하는 경우도 일반명사와 결합하여 체언을 만든다.

파란불(파랗/VA+ㄴ/ETM+불/NNG, ㅎ불규칙활용이 적용되었다.), 할말(하/VV+ㄹ/ETM+말/NNG), 빈그릇(비/VV+ㄴ/ETM+그릇/NNG)


기타 조합 : 

국내총생산(국내/NNG+총/MM+생산/NNG), 주식순매수(주식/NNG+순/MM+매수/NNG), 

눈코뜰새(눈코/NNG+뜨/VV+ㄹ/ETM+새/NNG), 발디딜틈(발/NNG+디디/VV+ㄹ/ETM+틈/NNG)


기타 조합에서 보듯이 MM+명사,  VA+ETM+명사, VV+ETM +명사  조합도 마치 복합명사 결합하듯이 체언으로 결합하는 것을 볼 수 있다.



명사형 전성어미로 끝나는 형태

ETN(명사형전성어미) : 기/ETN, ㅁ/ETN 등이고 걷기(걷/VV+기/ETN), 다름(다르/VA+ㅁ/ETN ) 처럼 사용될 수 있다. 용언형태(형용사, 동사 뿐만 아니라 체언+동사,형용사 파생접미사도 용언형태이다.)뒤에 붙어 체언처럼 만든다.

명사형 전성어미가 붙은 경우, 경우에 따라서 그 결합자체가 명사로 사용될 수도 있다. 걷기는 걷다의 걷과 명사형 전성어미가 붙은 단어이지만 이 자체로도 하나의 명사처럼 사용될 수 있다. 명사와의 차이점은 내가 사용하는 단일어 사전에 존재하면 명사로 취급하면 되는 것이고 없으면 명사형전성어미가 붙은 형태로 생각하면 될것이다.



일반적인 형태는 아래와 같다.

  VV+ETN : 알림(알리/VV+ㅁ/ETN), 옮기기(옮기/VV+기/ETN)

  VA+ETN : 부러움(부럽/VA+ㅁ/ETN, ㅂ불규칙 활용이 적용되었다.) , 없음(없/VA+음/ETN)

  VV+ETN+NNG : 걷기운동(걷/VV+기/ETN+운동/NNG), 돕기운동(돕/VV+기/ETN+운동/NNG)

기타 조합

불우이웃돕기(불우/NNG+이웃/NNG+돕/VV+기/ETN), 글쓰기(글/NNG+쓰/VV+기/ETN)

VV+ETN 자체가 하나의 체언처럼 동작한다. VV+ETN가 명사와 결합하는 것을 보면 이 형태가 또 다시 복합명사처럼 조합할 수 있다.







 어간과 어미를 분리하는데 조심해야 하는데 하나가 불규칙 활용(http://yiunsr.tistory.com/732)이고 또 다른 하나가 음운의 축약이나 준말 현상을 복원해야 하는 것이다. 경우에 따라서는 어간+어미 뿐만 아니라 다른 형태소내나 다른 형태소 끼리의 결합에도 존재한다. 이 경우에는 형태소 분석하기전에 미리 변경하는 작업이 필요 할 수도 있다.


 음운의 축약 현상은 한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) 에서 잘 설명되어 있다. 위키피디아의 음운의 변동에도 잘 설명이 되어 있다. 이를 기초로 하여 정리 해보면 아래와 같다.




간음화 : "앞뒤 음절의 모음이 서로 영향을 주어 중간음으로 되는 현상"

ㅏ+ㅣ->ㅐ 한글맞춤법 제 38항 싸이다->쌔다, 사이->새, 아이->애

ㅓ+ㅣ->ㅔ 한글맞춤법 제 37항 거이->게

ㅗ+ㅣ->ㅚ 한글맞춤법 제 37항 보이->뵈다 오이->외

ㅜ+ㅣ->ㅟ 한글맞춤법 제 37항 누이다->뉘다 바꾸이다->바뀌다


 거이->게 같은 경우 "거이" => 거/NNB+이/JX (이 거이 무엇인가) 이지만 준말이 되면서 "게" => 게/NP(이 게 무엇인가) 대명사로 성격이 변경되었다고 생각 할 수 있다. 굳이 따로 축약을 생각하지 않고 그대도 분석해도 될 것 같다. 



이중모음화 : 두 단모음이 엉겨붙어서 이중모음으로 변화하는 것이다.

ㅣ+ㅓ->ㅕ 한글맞춤법 제 36항 가리어->가려

ㅣ+ㅑ->ㅒ 맞춤법 규정없음 이야기->얘기

ㅣ+ㅗ->ㅛ 맞춤법 규정없음 하지오->하죠

ㅗ+ㅏ->ㅘ 한글맞춤법 제 35항 보아->봐, 보았->봤

ㅜ+ㅓ->ㅝ 한글맞춤법 제 35항 두어->둬, 두었->뒀

놓아->놔 한글맞춤법 제 35항 붙임 1 놓아->놔  유일한 예

ㅚ+ㅓ->ㅙ 한글맞춤법 제 35항 붙임 2 되어->돼, 되었다->됐다

ㅏ+ㅣ->ㅐ 한글맞춤법 제37항 싸이다->쌔다

ㅕ+ㅣ->ㅖ 한글맞춤법 제37항 켜이다->켸다

ㅗ+ㅣ->ㅚ 한글맞춤법 제37항 쏘이다->쐬다

ㅜ+ㅣ->ㅟ 한글맞춤법 제37항 누이다->뉘다

ㅡ+ㅣ->ㅢ 한글맞춤법 제37항 뜨이다->띄다, 



모음탈락 : 두 음운이 만나서 한 음운이 아예 사라져 소리 나지 않는 현상(여기서는 불규칙활용은 제외했다. 

동음탈락 아 어간 "ㅏ" + 어미 "아", "았" 한글맞춤법 제 34항 가아->가, 가았다->갔다 잠자아->잠자, 잠자았다->잠잤다, 차아->차, 차았다->찼다.

동음탈락 어 어간 "ㅓ" + 어미 "어", "었" 한글맞춤법 제 34항 서어->서, 서었다->섰다 건너어->건너, 건너었다->건넜다

어간 "ㅐ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

어간 "ㅔ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

하여->해 한글맞춤법 제 34항 붙임 2

아탈락 넉넉하지->넉넉치



기타

하 + ㄱ, ㄷ, ㅈ -> ㅋ, ㅌ, ㅊ  한글맞춤법 제 40항 간편하게->건편케, 달성하고자->달성코자, 다정하다->다정타, 연구하도록->연구토록, 무심하지->무심치

하 생략   어간안울림받침(ㄱ,ㅂ,ㅅ) + 어미"지", "건대", "다"    한글맞춤법 제 40항   거북지->거북하지, 생각하건대->생각건대, 생각하다 못해->생각다 못해

-하지 + 않-  -> 찮은   한글맞춤법 제 39항   만만하지 않다->만만찮, 변변하지 않다->변변찮다

-지 + 않-   -> 잖은     한글맞춤법 제 39항 그렇지 않은->그렇잖은, 적지 않은->적잖은,




많은 경우 어간내 축약이다. 이 경우는 위에서와 같이 모두 사전을 등록하는 방식을 사용할 수 있다. 어간+어미 결합에서 발생하는 경우는 불규칙처럼 따로 후보 생성을 해야한다. 



참고

음운의 변동 : https://ko.wikipedia.org/wiki/%EC%9D%8C%EC%9A%B4%EC%9D%98_%EB%B3%80%EB%8F%99

한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) : https://www.korean.go.kr/front/page/pageView.do?page_id=P000072&mn_id=30 




국립국어원 언어정보나눔터(https://ithub.korean.go.kr/) 를 보면 세종프로젝트에 따른 성과물이 공개되어 있습니다. 여기에는 참조할만한 데이터는 크게 3가지 입니다. 

전자사전 파일( XML 로 되어 있으므로 이를 파싱해서 분석하면 형태소별 단어 리스트와 그 안의 예제 및 정보들을 획득할 수 있습니다.  ), 구어와 문어 말뭉치 파일(현대구어 - 형태분석 말뭉치, 현대문어 - 구문분석 말뭉치), 기타 참고문서 파일이 있습니다. 기타 참고자료의 경우 가장 도움이 되는 문서는 형태소분석의이해_2006.pdf(https://ithub.korean.go.kr/user/total/referenceView.do) 가 형태소 분석기를 만드는데 매우 도움이 된다. 그리고 이 사이트에는 없지만 전자사전 파일 구조에 대해서 "21세기 세종계획"(http://policy.nl.go.kr/search/searchDetail.do?rec_key=UH1_00000078412789) 에 대해서 어느정도 설명이 되어 있다. 다만 이 문서는 현재의 XML 문서가 아니라서 없는 정보도 있고 attribute name 이 규칙이 잘못적용되어 있는 경우도 있다. 


이 문서들은 만든 주체들이 달라서 관점이 다를 수 있다. 전자사전 파일과 말뭉치 분석때 사용한 형태소 종류가 다를 수도 있다. 그리고 말뭉치에서 파일에는 있지만 전자사전 파일에 없는 경우도 많다. 형태소 분석기때 필요한 사전 리스트를 만들기 위해서는 이 두 데이터를 합쳐야 할 필요가 있다.