어간과 어미를 분리하는데 조심해야 하는데 하나가 불규칙 활용(http://yiunsr.tistory.com/732)이고 또 다른 하나가 음운의 축약이나 준말 현상을 복원해야 하는 것이다. 경우에 따라서는 어간+어미 뿐만 아니라 다른 형태소내나 다른 형태소 끼리의 결합에도 존재한다. 이 경우에는 형태소 분석하기전에 미리 변경하는 작업이 필요 할 수도 있다.
음운의 축약 현상은 한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) 에서 잘 설명되어 있다. 위키피디아의 음운의 변동에도 잘 설명이 되어 있다. 이를 기초로 하여 정리 해보면 아래와 같다.
간음화 : "앞뒤 음절의 모음이 서로 영향을 주어 중간음으로 되는 현상"
ㅏ+ㅣ->ㅐ 한글맞춤법 제 38항 싸이다->쌔다, 사이->새, 아이->애
ㅓ+ㅣ->ㅔ 한글맞춤법 제 37항 거이->게
ㅗ+ㅣ->ㅚ 한글맞춤법 제 37항 보이->뵈다 오이->외
ㅜ+ㅣ->ㅟ 한글맞춤법 제 37항 누이다->뉘다 바꾸이다->바뀌다
거이->게 같은 경우 "거이" => 거/NNB+이/JX (이 거이 무엇인가) 이지만 준말이 되면서 "게" => 게/NP(이 게 무엇인가) 대명사로 성격이 변경되었다고 생각 할 수 있다. 굳이 따로 축약을 생각하지 않고 그대도 분석해도 될 것 같다.
이중모음화 : 두 단모음이 엉겨붙어서 이중모음으로 변화하는 것이다.
ㅣ+ㅓ->ㅕ 한글맞춤법 제 36항 가리어->가려
ㅣ+ㅑ->ㅒ 맞춤법 규정없음 이야기->얘기
ㅣ+ㅗ->ㅛ 맞춤법 규정없음 하지오->하죠
ㅗ+ㅏ->ㅘ 한글맞춤법 제 35항 보아->봐, 보았->봤
ㅜ+ㅓ->ㅝ 한글맞춤법 제 35항 두어->둬, 두었->뒀
놓아->놔 한글맞춤법 제 35항 붙임 1 놓아->놔 유일한 예
ㅚ+ㅓ->ㅙ 한글맞춤법 제 35항 붙임 2 되어->돼, 되었다->됐다
ㅏ+ㅣ->ㅐ 한글맞춤법 제37항 싸이다->쌔다
ㅕ+ㅣ->ㅖ 한글맞춤법 제37항 켜이다->켸다
ㅗ+ㅣ->ㅚ 한글맞춤법 제37항 쏘이다->쐬다
ㅜ+ㅣ->ㅟ 한글맞춤법 제37항 누이다->뉘다
ㅡ+ㅣ->ㅢ 한글맞춤법 제37항 뜨이다->띄다,
모음탈락 : 두 음운이 만나서 한 음운이 아예 사라져 소리 나지 않는 현상(여기서는 불규칙활용은 제외했다.
동음탈락 아 어간 "ㅏ" + 어미 "아", "았" 한글맞춤법 제 34항 가아->가, 가았다->갔다 잠자아->잠자, 잠자았다->잠잤다, 차아->차, 차았다->찼다.
동음탈락 어 어간 "ㅓ" + 어미 "어", "었" 한글맞춤법 제 34항 서어->서, 서었다->섰다 건너어->건너, 건너었다->건넜다
어간 "ㅐ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1
어간 "ㅔ" + 어미 "어", "었" 한글맞춤법 제 34항 붙임 1
하여->해 한글맞춤법 제 34항 붙임 2
아탈락 넉넉하지->넉넉치
기타
하 + ㄱ, ㄷ, ㅈ -> ㅋ, ㅌ, ㅊ 한글맞춤법 제 40항 간편하게->건편케, 달성하고자->달성코자, 다정하다->다정타, 연구하도록->연구토록, 무심하지->무심치
하 생략 어간안울림받침(ㄱ,ㅂ,ㅅ) + 어미"지", "건대", "다" 한글맞춤법 제 40항 거북지->거북하지, 생각하건대->생각건대, 생각하다 못해->생각다 못해
-하지 + 않- -> 찮은 한글맞춤법 제 39항 만만하지 않다->만만찮다, 변변하지 않다->변변찮다
-지 + 않- -> 잖은 한글맞춤법 제 39항 그렇지 않은->그렇잖은, 적지 않은->적잖은,
많은 경우 어간내 축약이다. 이 경우는 위에서와 같이 모두 사전을 등록하는 방식을 사용할 수 있다. 어간+어미 결합에서 발생하는 경우는 불규칙처럼 따로 후보 생성을 해야한다.
참고
음운의 변동 : https://ko.wikipedia.org/wiki/%EC%9D%8C%EC%9A%B4%EC%9D%98_%EB%B3%80%EB%8F%99
한글 맞춤법 제4장(형태에 관한 것) 제5절(준말) : https://www.korean.go.kr/front/page/pageView.do?page_id=P000072&mn_id=30