어간과 어미를 분리하는데 조심해야 하는데 하나가 불규칙 활용(http://yiunsr.tistory.com/732)이고 또 다른 하나가 음운의 축약이나 준말 현상을 복원해야 하는 것이다. 경우에 따라서는 어간+어미 뿐만 아니라 다른 형태소내나 다른 형태소 끼리의 결합에도 존재한다. 이 경우에는 형태소 분석하기전에 미리 변경하는 작업이 필요 할 수도 있다.


 음운의 축약 현상은 한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) 에서 잘 설명되어 있다. 위키피디아의 음운의 변동에도 잘 설명이 되어 있다. 이를 기초로 하여 정리 해보면 아래와 같다.




간음화 : "앞뒤 음절의 모음이 서로 영향을 주어 중간음으로 되는 현상"

ㅏ+ㅣ->ㅐ 한글맞춤법 제 38항 싸이다->쌔다, 사이->새, 아이->애

ㅓ+ㅣ->ㅔ 한글맞춤법 제 37항 거이->게

ㅗ+ㅣ->ㅚ 한글맞춤법 제 37항 보이->뵈다 오이->외

ㅜ+ㅣ->ㅟ 한글맞춤법 제 37항 누이다->뉘다 바꾸이다->바뀌다


 거이->게 같은 경우 "거이" => 거/NNB+이/JX (이 거이 무엇인가) 이지만 준말이 되면서 "게" => 게/NP(이 게 무엇인가) 대명사로 성격이 변경되었다고 생각 할 수 있다. 굳이 따로 축약을 생각하지 않고 그대도 분석해도 될 것 같다. 



이중모음화 : 두 단모음이 엉겨붙어서 이중모음으로 변화하는 것이다.

ㅣ+ㅓ->ㅕ 한글맞춤법 제 36항 가리어->가려

ㅣ+ㅑ->ㅒ 맞춤법 규정없음 이야기->얘기

ㅣ+ㅗ->ㅛ 맞춤법 규정없음 하지오->하죠

ㅗ+ㅏ->ㅘ 한글맞춤법 제 35항 보아->봐, 보았->봤

ㅜ+ㅓ->ㅝ 한글맞춤법 제 35항 두어->둬, 두었->뒀

놓아->놔 한글맞춤법 제 35항 붙임 1 놓아->놔  유일한 예

ㅚ+ㅓ->ㅙ 한글맞춤법 제 35항 붙임 2 되어->돼, 되었다->됐다

ㅏ+ㅣ->ㅐ 한글맞춤법 제37항 싸이다->쌔다

ㅕ+ㅣ->ㅖ 한글맞춤법 제37항 켜이다->켸다

ㅗ+ㅣ->ㅚ 한글맞춤법 제37항 쏘이다->쐬다

ㅜ+ㅣ->ㅟ 한글맞춤법 제37항 누이다->뉘다

ㅡ+ㅣ->ㅢ 한글맞춤법 제37항 뜨이다->띄다, 



모음탈락 : 두 음운이 만나서 한 음운이 아예 사라져 소리 나지 않는 현상(여기서는 불규칙활용은 제외했다. 

동음탈락 아 어간 "ㅏ" + 어미 "아", "았" 한글맞춤법 제 34항 가아->가, 가았다->갔다 잠자아->잠자, 잠자았다->잠잤다, 차아->차, 차았다->찼다.

동음탈락 어 어간 "ㅓ" + 어미 "어", "었" 한글맞춤법 제 34항 서어->서, 서었다->섰다 건너어->건너, 건너었다->건넜다

어간 "ㅐ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

어간 "ㅔ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1

하여->해 한글맞춤법 제 34항 붙임 2

아탈락 넉넉하지->넉넉치



기타

하 + ㄱ, ㄷ, ㅈ -> ㅋ, ㅌ, ㅊ  한글맞춤법 제 40항 간편하게->건편케, 달성하고자->달성코자, 다정하다->다정타, 연구하도록->연구토록, 무심하지->무심치

하 생략   어간안울림받침(ㄱ,ㅂ,ㅅ) + 어미"지", "건대", "다"    한글맞춤법 제 40항   거북지->거북하지, 생각하건대->생각건대, 생각하다 못해->생각다 못해

-하지 + 않-  -> 찮은   한글맞춤법 제 39항   만만하지 않다->만만찮, 변변하지 않다->변변찮다

-지 + 않-   -> 잖은     한글맞춤법 제 39항 그렇지 않은->그렇잖은, 적지 않은->적잖은,




많은 경우 어간내 축약이다. 이 경우는 위에서와 같이 모두 사전을 등록하는 방식을 사용할 수 있다. 어간+어미 결합에서 발생하는 경우는 불규칙처럼 따로 후보 생성을 해야한다. 



참고

음운의 변동 : https://ko.wikipedia.org/wiki/%EC%9D%8C%EC%9A%B4%EC%9D%98_%EB%B3%80%EB%8F%99

한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) : https://www.korean.go.kr/front/page/pageView.do?page_id=P000072&mn_id=30