전에 형태소 분석기를 만드는 과정이 어절분리->어절내에서 기분석사전을 통한 분석->기분석사전 실패시 음절 또는 자소 분리후 사전 검색->완전히 실패시 통계적으로 형태소 추정이라고 했다.
어절내에서 기분석사전 실패시 음절 또는 자소 분리후 사전 검색에서 따로 규칙을 생각하지 않고 무작정 분석하게 된다면 속도로 느린 뿐만아니라 기분석 사전에 없는 경우, 대략적인 형태소 추정도 불가능하다. 이를 위해 어절이 만들어지는 형태소 규칙을 잘 이용할 필요가 있다.
국립국어원 언어정보나눔터(https://ithub.korean.go.kr)에서 제공하는 문서중에 형태소 분석의 이해라는 문서를 보면 여기에 대한 정보가 있다. 예가 없는 경우도 있는데 이예를 보충해서 추가 했다.(내가 추가한 예의 경우 틀릴 수도 있다는 점을 감안하기 바란다.)
어절 예
체언(N,PN,NM,XN,CN,UN,AS,HJ,ET) 하늘
체언+조사 하늘이(하늘+이)
체언+용언화 접미사+어미 공부하는(공부+하+는)
체언+용언화 접미사 + "ㅁ/기"+조사 학생이기를(학생+이+기+를)
체언+용언화 접미사+"아/어"+보조용언+어미 가공되어진다(가공+되+어+지+ㄴ다)
체언+"에서/부터/에서부터"+"이"+어미 집에서부터이다(집+에서부터+이+다)
용언+어미 가고(가+고)
용언+"ㅁ/기"+조사 배고픔을(배고프+ㅁ+을)
용언+"ㅁ/기"+이+어미 배고픔이다(배고프+ㅁ+이+다)
용언+"아/어"+보조용언+어미 죽어가고있다(죽+어+가고+있다[있+다])
용언+"아/어"+보조용언+"ㅁ/기"+조사 죽어감에(죽+어+가+ㅁ+에)
단일어(부사,관형사,감탄사) 빨리
부사+조사 빨리도(빨리+도)
체언+동사+어미 밥먹다(밥+먹+다)
이렇게 되어 있다. 여기서 어미는 일반어미와 선어말어미와 결합될 수도 있다.
체언은 명사, 대명사, 수사, 의존명사, 접두사, 체언접미사 등을 포함한다.
용언화 접미사는 서술격 조사 "이다"도 포함되어 있다고 한다.
해당 문서 설명이 부족한 부분이 있는데 용언화 접미사는 형용사 파생 접미사 + 동사 파생 접미사를 포함한 것으로 보인다.
이를 정리해 보면
1. 체언을 포함한 단일어
2. 조사로 끝나는 경우
체언+조사 체언+용언화 접미사 + "ㅁ/기"+조사 용언+"ㅁ/기"+조사 용언+"아/어"+보조용언+"ㅁ/기"+조사 부사+조사
3. 어미로 끝나는 경우가 있다.
체언+용언화 접미사+어미 체언+용언화 접미사+"아/어"+보조용언+어미 체언+"에서/부터/에서부터"+"이"+어미 용언+어미 용언+"ㅁ/기"+이+어미 용언+"아/어"+보조용언+어미 체언+동사+어미
여기서 조금 조심해야 하는 부분은 어미가 기존 용언과 합쳐져서 나올 수 있다.
예를 들어 너 학교에 가? 에서 가는 가/VV + 아/E 가 합쳐진 어절로 볼 수 있다.
가아 라는 단어가 축약된 것으로 볼 수 있다. 이 점은 조금 조심이 필요할 것 같다.
조사의 경우, 받침으로 결합하는 경우에만 생각하면 되나 용언+어미의 경우, 글자 그대로 결합하지 않고 어간,어미가 변경되는 불규칙 활용되는 경우가 있다. 이 경우도 꼭 고려가 필
요하다.
추가 : 국립국어원 언어정보나눔터(https://ithub.korean.go.kr/)에서 제공하는 21세기 세종계획 말뭉치를 분석해보면 위의 case 가에서 조금씩 벗어나는 case 가 있는 것 같다. 해당 case 에 대해 정리하면 추가하도록 하겠다.