어간과 어미를 분리하는데 조심해야 하는데 하나가 불규칙 활용(http://yiunsr.tistory.com/732)이고 또 다른 하나가 음운의 축약이나 준말 현상을 복원해야 하는 것이다. 경우에 따라서는 어간+어미 뿐만 아니라 다른 형태소내나 다른 형태소 끼리의 결합에도 존재한다. 이 경우에는 형태소 분석하기전에 미리 변경하는 작업이 필요 할 수도 있다.


 음운의 축약 현상은 한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) 에서 잘 설명되어 있다. 위키피디아의 음운의 변동에도 잘 설명이 되어 있다. 이를 기초로 하여 정리 해보면 아래와 같다.




간음화 : "앞뒤 음절의 모음이 서로 영향을 주어 중간음으로 되는 현상"

ㅏ+ㅣ->ㅐ 한글맞춤법 제 38항 싸이다->쌔다, 사이->새, 아이->애

ㅓ+ㅣ->ㅔ 한글맞춤법 제 37항 거이->게

ㅗ+ㅣ->ㅚ 한글맞춤법 제 37항 보이->뵈다 오이->외

ㅜ+ㅣ->ㅟ 한글맞춤법 제 37항 누이다->뉘다 바꾸이다->바뀌다


 거이->게 같은 경우 "거이" => 거/NNB+이/JX (이 거이 무엇인가) 이지만 준말이 되면서 "게" => 게/NP(이 게 무엇인가) 대명사로 성격이 변경되었다고 생각 할 수 있다. 굳이 따로 축약을 생각하지 않고 그대도 분석해도 될 것 같다. 



이중모음화 : 두 단모음이 엉겨붙어서 이중모음으로 변화하는 것이다.

ㅣ+ㅓ->ㅕ 한글맞춤법 제 36항 가리어->가려

ㅣ+ㅑ->ㅒ 맞춤법 규정없음 이야기->얘기

ㅣ+ㅗ->ㅛ 맞춤법 규정없음 하지오->하죠

ㅗ+ㅏ->ㅘ 한글맞춤법 제 35항 보아->봐, 보았->봤

ㅜ+ㅓ->ㅝ 한글맞춤법 제 35항 두어->둬, 두었->뒀

놓아->놔 한글맞춤법 제 35항 붙임 1 놓아->놔  유일한 예

ㅚ+ㅓ->ㅙ 한글맞춤법 제 35항 붙임 2 되어->돼, 되었다->됐다

ㅏ+ㅣ->ㅐ 한글맞춤법 제37항 싸이다->쌔다

ㅕ+ㅣ->ㅖ 한글맞춤법 제37항 켜이다->켸다

ㅗ+ㅣ->ㅚ 한글맞춤법 제37항 쏘이다->쐬다

ㅜ+ㅣ->ㅟ 한글맞춤법 제37항 누이다->뉘다

ㅡ+ㅣ->ㅢ 한글맞춤법 제37항 뜨이다->띄다, 



모음탈락 : 두 음운이 만나서 한 음운이 아예 사라져 소리 나지 않는 현상(여기서는 불규칙활용은 제외했다. 

동음탈락 아 어간 "ㅏ" + 어미 "아", "았" 한글맞춤법 제 34항 가아->가, 가았다->갔다 잠자아->잠자, 잠자았다->잠잤다, 차아->차, 차았다->찼다.

동음탈락 어 어간 "ㅓ" + 어미 "어", "었" 한글맞춤법 제 34항 서어->서, 서었다->섰다 건너어->건너, 건너었다->건넜다

어간 "ㅐ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

어간 "ㅔ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

하여->해 한글맞춤법 제 34항 붙임 2

아탈락 넉넉하지->넉넉치



기타

하 + ㄱ, ㄷ, ㅈ -> ㅋ, ㅌ, ㅊ  한글맞춤법 제 40항 간편하게->건편케, 달성하고자->달성코자, 다정하다->다정타, 연구하도록->연구토록, 무심하지->무심치

하 생략   어간안울림받침(ㄱ,ㅂ,ㅅ) + 어미"지", "건대", "다"    한글맞춤법 제 40항   거북지->거북하지, 생각하건대->생각건대, 생각하다 못해->생각다 못해

-하지 + 않-  -> 찮은   한글맞춤법 제 39항   만만하지 않다->만만찮, 변변하지 않다->변변찮다

-지 + 않-   -> 잖은     한글맞춤법 제 39항 그렇지 않은->그렇잖은, 적지 않은->적잖은,




많은 경우 어간내 축약이다. 이 경우는 위에서와 같이 모두 사전을 등록하는 방식을 사용할 수 있다. 어간+어미 결합에서 발생하는 경우는 불규칙처럼 따로 후보 생성을 해야한다. 



참고

음운의 변동 : https://ko.wikipedia.org/wiki/%EC%9D%8C%EC%9A%B4%EC%9D%98_%EB%B3%80%EB%8F%99

한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) : https://www.korean.go.kr/front/page/pageView.do?page_id=P000072&mn_id=30 




국립국어원 언어정보나눔터(https://ithub.korean.go.kr/) 를 보면 세종프로젝트에 따른 성과물이 공개되어 있습니다. 여기에는 참조할만한 데이터는 크게 3가지 입니다. 

전자사전 파일( XML 로 되어 있으므로 이를 파싱해서 분석하면 형태소별 단어 리스트와 그 안의 예제 및 정보들을 획득할 수 있습니다.  ), 구어와 문어 말뭉치 파일(현대구어 - 형태분석 말뭉치, 현대문어 - 구문분석 말뭉치), 기타 참고문서 파일이 있습니다. 기타 참고자료의 경우 가장 도움이 되는 문서는 형태소분석의이해_2006.pdf(https://ithub.korean.go.kr/user/total/referenceView.do) 가 형태소 분석기를 만드는데 매우 도움이 된다. 그리고 이 사이트에는 없지만 전자사전 파일 구조에 대해서 "21세기 세종계획"(http://policy.nl.go.kr/search/searchDetail.do?rec_key=UH1_00000078412789) 에 대해서 어느정도 설명이 되어 있다. 다만 이 문서는 현재의 XML 문서가 아니라서 없는 정보도 있고 attribute name 이 규칙이 잘못적용되어 있는 경우도 있다. 


이 문서들은 만든 주체들이 달라서 관점이 다를 수 있다. 전자사전 파일과 말뭉치 분석때 사용한 형태소 종류가 다를 수도 있다. 그리고 말뭉치에서 파일에는 있지만 전자사전 파일에 없는 경우도 많다. 형태소 분석기때 필요한 사전 리스트를 만들기 위해서는 이 두 데이터를 합쳐야 할 필요가 있다. 

 어미는 용언뒤나 지정사(서술격조사)뒤 사용되는 의존형태소이다. 학교문법에서는 어미를 따로 형태소로 분리하지 않으나 일반적인 형태소 분석기는 어미도 분리한다. 


 어미의 종류는 아래와 같다. 

  선어말 어미 : 높임말을 나타내는 -시-,  -옵- , 시제를 나타내는 -았-, -는-  같은 것이있다. 이런 선어말어미는 일반적인 어미앞에 나타날 수 있다.

  연결어미 :  -고,  -거든   같이 문장이 완전히 종료되지 않고 이어지게 하는 어미이다.

      이 연결어미내에서 이어지는 방법에 따라서 대등적연결어미, 종속적 연결어미, 조적 연결어미로 나누기도 한다.

대등적 연결어미는 연결어미를 사용할 나열, 대조, 선택 같은 것을 사용하게 했을 때이고 종속적 연결어미는 앞 절이 뒷 절에 대해 종송적인 의미관계를 갖게 하는 어미이다.

보조적 연결어미는 본용언 어간에 보조 용언을 연결하는 어말 어미이다.

  

 종결 어미 : 문장이 종결될 때 사용되는 어미이다. 대표적으로 다, 나, 까 같은 것이 있다.


전성어미 : 용언뒤에 붙어 용언이 명사나 관형사 처럼 작용할 수 있는 형태소를 바꾸는 어미이다.

명사형 전성어미, 관형사형 전성어미가 있다. 명사형 전성어미는 -ㅁ, -음, -기 같은 것이 있다. "먹" 이라는 동사에 "기"라는 전성어미가 붙으면 "먹기"가 된다. 물론 이 단어 자체를 명사로 분류할 수도 있다. 비슷하게 "음" 을 이용하면 "먹음" 이런 명사처럼

    관형사형 전성어미는  -ㄴ, -는 같은게 있다. "먹"이라는 동사에 "는"을 붙이면 "먹는" 이라고 해서 체언을 꾸밀 수 있는 어절을 만들 수 있다. 체언을 꾸밀 수 있기 때문에 관형사이다. (부사는 용언과 다른 부사를 꾸밀 수 있다. )


세종 말뭉치에서 분석해 둔 것을 보니 어미의 경우 복합어미처럼 보일 지라도 단일하게 분석해 두었다. 내가 만드는 형태소 분석기도 이렇게 만들 생각이다. 


용언과 어미를 분리할 때는 저번에 포스팅한 불규칙활용을 고려해서 판단해야 한다. 


또 하나 조심해야 하는 것은 음운 축약 형태이다. "가" 라는 어절은 가/VV+아/EF 의 형태가 축약된 형태이다. 이와 유사하게 "와"는 오/VV+아/EF 가 축약된 형태이다. 

 첫번째는 한국어 맞춤법  제4장 형태에 관한 것 제 5절 준말(https://www.korean.go.kr/front/page/pageView.do?page_id=P000072&mn_id=30) 내에 있는 "제34항모음 ‘ㅏ, ㅓ’로 끝난 어간에 ‘-아/-어, -았-/-었-’이 어울릴 적에는 준 대로 적는다." 부분이 적용된 것이다. 두번째 예는 "제35항모음 ‘ㅗ, ㅜ’로 끝난 어간에 ‘-아/-어, -았-/-었-’이 어울려 ‘ㅘ/ㅝ, 될 적에는 준 대로 적는다." 의 규칙이다. 


한국어 맞춤법 제4장  제 5절에 있는  모음 규칙에 있는 것에 대해서도 어간, 어미에 대해 분리 할 수 있어야 한다. 






 참고 : http://tip.daum.net/question/83687400 

         https://blog.naver.com/zzangdol57/30169103790