[형태소분석]어절의 구성(http://yiunsr.tistory.com/731) 에서 단일어가 아니면 조사나 어미로 종결하는 것을 볼 수 있었다. 조사와 어미의 경우 개수가 제한되어 있고, 신조어도 적기 때문에 분해하기 쉬어 보인다. 


조사의 종류는 아래와 같다. 

격조사 : 어절의 성격을 나타내는 조사이다. 문장성분(주어, 목적어, 서술어, ...)로 구별할 수 있게 한다.

격조사는 주격 조사, 서술격 조사(관점에 따라서 지정사로 분리하기도 한다. ), 관형격 조사, 목적격 조사, 부사격 조사, 호격 조사(물건이나 상대방을 부르는 말로, 독립어가 되게 한다. ), 인용격 조사(다른 사람의 말이나 속담, 격언등을 인용할 때)

   격조사는 체언이나 체언 역할을 하는 말("이건 먹기가 아깝다."에서 처럼  용언+기/ㅁ 같은 경우 체언 역할을 할 수 있다.)

접속조사 : 두 단어를 이어줌(과,와... 같은 조사), 체언이나 체언 역할을 하는 말뒤에 붙는다.

보조사 : 체언이나 부사, 어미 뒤에 붙어서 여러의미를 전달하는 조사이다. 
체언이나 체언 역할이 없는 경우에도 붙을 수 있다.  ~것인가를(것/NNB + 이/VCP + ㄴ가/EC + 를/JX) ,  빨리도(빨리/MAG+도/JX) 이런 식으로 붙을 수 있다.

보조사를 조금 더 나누면

종결보조사 문장의 종결 어미 뒤에만 쓰이는 보조사, 잘됐구먼그래 에서 그래 (참고 : 네이버사전 http://krdic.naver.com/detail.nhn?docid=34540800 )

통용보조사 : 체언이나 부사 및 용언의 종결 어미에 두루 붙는 보조사. 높임을 나타낼 때 사용하는 "요" 같은 말, 그래 , 나는 ( 참고 : 네이버사전 http://krdic.naver.com/detail.nhn?docid=39679800 )

성분보조사 : 위에 것 나머지. 격조사 처럼 문장성문을 만든다는 것으로 보임.



주의가 필요한 부분이 있는데, 접속조사 와, 과, 랑 같은 경우 보조사와 혼동이 될 수 있다. 철수와 영희가 같이 갔다. 의 와의 경우 접속조사 이지만

철수와 같이 갔다. 에서의 와는 보조사로 해석한다. 대칭적행위대상이라는 보조적인 의미가 포함되어 있기 때문이다.

이 형태소 분석을 위해서는 다음 어절이 꼭 필요하다.


주격조사, 보격조사도 다음 어절에 따라서 주격조사가 될 수도 있고, 보격조사가 될 수도 있다. 우리나라에서 보어는 되다, 아니다, 라는 말을 보충할 때이다. 이런게 없으면 주격조사이다.


경우에 따라서는 부사격조사를 다시 여러 성분으로 나누기도 한다. 우선 내 기준으로는 이 정도면 충분할 것 같다. 더 들어가면 ~에 같은 조사에 대해서 너무 많은 가능성이 나와서 형태소 분석기가 복잡해 질 것 같다.


통용보조사 '요' 의 경우 어미뒤에 사용되는 경우 어미로 보기도 한다. 안녕하세요. 의 경우 "세요"로 묶어 그냥 어미로도 볼 수 있다.





조사를 분류하기에 따라서는 복합조사를 고려해볼 수 있다. 복합조사는 "회사에만 가면 졸리다." 에서의 에만 같은 것이다. 이를 통으로 볼수도 있지만 에만을 에/JKB+만/JX 처럼 부사격조사와 보조사로 이루어졌다고 생각할 수 있다.


복합조사의 경우 결합되는 case 가 한정되어 있고, 음절수가 적어서 오분석 될 수 있으므로 미리 기분석 사전을 만들어 두는 형태가 좋을 것 같다.


기분석사전을 만들어두어도 오류는 피하기 어렵다. 경우에 따라서는 같은 어절도 같은 문장이라도 2개의 뜻이 나올 수 있다.


김해서는 상남자다.

이 뜻은 앞에 주어가 생략되었고 (나는) 김해지역에서는 상남자라는 뜻이 있을 수 있다.

이 때는 김해서는 => 김해/NNP + 서/JKB + 는/JX 이라고 복합조사로 분석할 수 있다.


경우에 따라서는 "김해서"가 사람이름일 수도 있다. 김해서라는 사람은 상남자라고 생각할 수도 있다. 이 경우 김해서는 => 김해서/NNP + 는/JX 로 분석할 수도있다.


사실 이런 경우는 앞뒤 문장 문맥이 있지 않는한 분석하기 어렵다.


어째든 조사외형태소 + 조사 가 결합시 여러후보가 생성될 수 있음을 고려해야 한다. 하나의 후보가 생성된다고 해서 끝내만 안되고 가능한 여러 후보를 생성해야 한다.




참고 :

(https://ko.wikipedia.org/wiki/%EC%A1%B0%EC%82%AC_(%ED%92%88%EC%82%AC)


수정 1 : 보조사 세부 내용 추가


 우리나라 말의 경우, 용언(동사+형용사)가 어미와 결합하는 때, 어간, 어미, 어간과 어미 모두 변하는 경우가 발생하는데 이를 불규칙 활용이라고 합니다. ( https://ko.wikipedia.org/wiki/%ED%95%9C%EA%B5%AD%EC%96%B4%EC%9D%98_%EB%B6%88%EA%B7%9C%EC%B9%99_%ED%99%9C%EC%9A%A9 )



이 불규칙 활용을 때문에 용언+어미를 분리 할 때, 이를 고려해야 한다.

예를들어, "자를 대고 연필로 줄을 그었다." 라는 문장에서 "그었다"에서  ㅅ불규칙을 고려하지  못하면 긋+어 가 아닌 그+어 로 분석해 버린다. 


 따라서 제대로된 분석을 위해서는 이런 것을 다 원래 원형을 찾아야 한다. 불규칙을 발생할 때의 특정 음절이 있기 때문에 이 음절을 바탕으로 검사할 필요가 있다.


예를 들어 ㅅ불규칙 "어간 끝소리 'ㅅ'이 홀소리로 시작하는 어미 앞에서 사라지는 활용" 이다. 이 때문에 ㅅ받침이 존재하는 어간의 끝음절은 긋,끗,낫,뭇,붓,잇,잣,젓,짓 이다. (이 단어들은 국립국어원 언어정보나눔터(https://ithub.korean.go.kr)에서 제공하는 문서중에 형태소 분석의 이해에 잘 나와있다.) 이 단어가 활용을 하게 되면 보이는 글자는 그,끄,나,무,부,이,자,저,지 이다. 특정음절+어절인 경우에 불규칙을 고려해야 한다.


어미에 변하는 불규칙도 있다. '러' 불규칙의 경우 푸르+어 => 푸르러 로 변한다. 이 경우도 불규칙이 발생할 때의 음절을 찾아 원래 어미로 변경한 후 사전에서 해당 어미가 존재하는지 검사해야 한다.




ㄷ 불규칙 활용

- 어간 받침 "ㄷ"이 홀소리로 시작하는 어미와 맡나는 경우 어간 받침이 "ㄹ"로 변함

- ex) (물을) 긷다 =>길어, 길으니 , 싣다 =>실어, 실으니

- 검사방법: "걸", "결", "길", "눌", "달", "들", "물", "불", "실", "컬" 로 끝나는 어간 + 어미첫음절 첫소리가 ㅇ인 경우



ㅂ 불규칙 활용

- 어간 끝소리 "ㅂ"이 "우"로 바뀌는 활용 형식이다. 도와, 고와의 경우 "오" 형태로 변경됨

- ex) 가벼워=>가볍/VA+어/EC, 가벼우니=>가볍/VA+니/EC, 껄끄러워=>껄끄럽/VA+어/EC, 껄끄러우니=>껄끄럽/VA+니/EC,

- 검사방법 : "가", "거", "겨", "고", "구", "기", "까", "꺼", "꼬", "나", "내", "누", "다", "더", "도", "두", "따", "떠", "라", "러", "려", "로", "리", "마", "매", "미", "벼", "서", "쉬", "스", "쑤", "어", "여", "오", "자", "저", "주", "짜", "쩌", "쪼", "쭈", "추", "타", "터", "허" 또는 "설"

로 끝나는 어간 + 어미첫음절 초성이 'ㅇ' 이고 중성이 'ㅗ', 'ㅘ', 'ㅜ','ㅝ' 인(음절로는 오, 와, 왔, 우, 워, 웠 ) 경우

아주 예외적으로 섧다 라는 서럽다의 준말이 있다.


ㅅ 불규칙 활용

- 어간 끝소리 "ㅅ"이 홀소리로 시작하는 어미 앞에서 사라지는 활용

- ex) 긋다=>그어, 그으니 낫다 => 나아, 나으니

- 검사방법 : "그", "끄", "나", "무", "부","이", "자", "저", "지" 로 끝나는 어간과 어미 첫음절 첫소리가 'ㅇ'인 경우



러 불규칙 활용

- 어미 '-어/-어서'의 '-어'가 '-러'로 바뀌는 활용 형식

- ex) 검푸르다 =>검푸르러,

- 검사방법 : 전수조사, 대략 10가지 종류이다. 그런데 파생어가 만들어지기 나름이라 더 늘어날 수 있다.

어간이 "노르", "푸르", "누르", "바르", "이르" 로 끝난다. (심지바르다 같은 경우도 러 불규칙인데, "바르"로 끝난다. )


우 불규칙 활용

- 어간 끝 '우'가 어미 '-어' 앞에서 사라지는 활용 형식

- ex) 퍼 => 푸/VV + 어/EC 가 유일하다.

- 검사방법 : 퍼가 유일하다고 해서 퍼만 검사하면 안된다. 과거형도 고려해야 한다. "퍼", "펐" 인 경우



여 불규칙 활용

- '-하다'로 끝나는 모든 용언이 어미 '-아'가 '-여'로 바뀌는 활용 형식

- ex) 공부하여 => 공부하/VV + 어/EC

- 관점에 따라서는 공부하/VV + 여/EC 도 판단해도 된다.

- 검사방법 : 어간이 "하"로 끝나고 어미가 "여"로 시작하는 경우



오 불규칙 활용

- 어미 '-아라/어라'가 어간 뒤에서 '오'로 바뀌는 활용 형식

- ex) 다오 => 달/VV + 아라/EC 가 유일한 예이다.

- 검사방법 : 어절 자체가 다오 인 경우


ㅎ 불규칙 1

- 어간 끝 'ㅎ'이 어미 '-ㄴ'이나 '-ㅁ' 앞에서 사라지는 활용

- ex) 까만 => 까맣/VA + ㄴ/ETM, 가느다람 => 가느다랗/VA + ㅁ/ETM

- 검사방법 : 어절끝이 "간", "건", "단", "떤", "란", "런", "만", "먼", "얀", "연" 인 경우 (빨간)

어쩔끝이 "감", "검", "담", "떰", "람", "럼", "맘", "멈", "얌", "염" 인 경우 (빨감)

어미끝이 "가","거", "다", "떠', "라", "러", "마", "머", "야", "여" 이고 어미 첫음절 초성이ㅁ 인 경우 (빨가면)


ㅎ불규칙2

- 어간 끝 'ㅎ'이 어미 '-아/-어' 앞에서 ㅣ로 바뀌어 합쳐지는 활용

- ex) 까매 => 까맣/VA + 어/EC,

- 검사방법 어간 끝이 "개", "대", "때", "래", "매", "애", "갰", "댔", "랬", "멨", "앴" , "게", "레", "메" "겠", "렜", "멨" 인 경우



으 불규칙 활용

 - 용언 어간 '으'가 어미 '-아/-어' 앞에서 사라지는 활용 형식

 - ex) 기뻐 => 기쁘/VA + 어/EC,  슬퍼=> 슬프/VA + 어/EC

 - 검사방법 : 어간 끝이  "가", "거", "까", "나", "떠", "빠", "뻐", "써", "아", "커",    "터", "파", "퍼",

                            "갔", "겄", "깠", "났", "떳", "빴", "뻣", "썻", "앗", "컷",  "텃", "팠", "펐"  이거나

                 "곁따라", "다다라", "뒤따라", "들러", "따라",  "붙따라", "으러러", "잇따라", "장사치러", "치러",

                   "곁따랐", "다다랐", "뒤따랐", "들렀", "따랐", "붙따랐", "으러렀", "잇따랐", "장사치렀", "치렀",

                     로 끝나는 어간

  (르 불규칙과 구별을 위해 어절을 일부 가져 왔는데, 의미가 없는 것 같다...... )



르 불규칙 활용

- 어간의 끝 음절 '르'가 'ㄹ'로 줄고, 어미 '-아/-어'가 '-라/-러'로 바뀌는 활용

- ex) 몰라 => 몰르/VA+아/EC

- 검사방법 : "으"불규칙 , "러" 불규칙이 아니고 어간 끝 음절이 ㄹ라/ㄹ러 로 끝나는 경우


ㄹ 불규칙 활용

- 어간 끝소리 'ㄹ'이 'ㄴ', 'ㄹ', 'ㅂ', '오', '시' 앞에서 사라지는 활용 형식

-

검사방법 : 어간 끝 음절이 "가", "거", "고", "구", "그", "기", "까", "꼬", "끄", "나", "너", "노", "느", "니", "다", "더", "도", "두", "드", "따", "떠", "뚜", "마", "머", "며", "모", "무", "미", "바", "벌", "부", "빌", "빠", "사", "서", "소", "스", "써", "쏘", "쓰", "아", "어", "여", "우", "으", "이", "자", "저", "조", "주", "지", "치", "크", "터", "투", "트", "파", "푸", "허" 이고

어미의 첫음절 첫소리가 ㄴ,ㄹ,ㅂ이거나 첫음절이 오, 시, 셨 인 경우



거라 불규칙 :

- 가다'와 '가다'로 끝나는 동사 어간 뒤의 명령형 어미가 '-아라/-어라'로 되지 않고 '-거라'로 바뀌는 활용

- 그냥 거라는 어미로 볼 수도 있다. 경우에 따라서 먹거라, 자거라 처럼 어법에 맞지 않는 표현도 사용되는 경우가 많다.

- 검사방법 : 거라가 들어간 경우


너라 불규칙 :

- '오다' 또는 '오다'로 끝나는 동사 어간 뒤의 명령형 어미가 '-아라/-어라'로 되지 않고 '-너라'로 바뀌는 활용

- 그냥 너라를 어미로 볼 수도 있다.

- 검사방법 : 너라가 들어간 경우




불규칙 검사에서 아주 조심해야 하는 것은 과거형을 나태나는 선어말어미 었/EP, 았/EP 와 결할 될 수도 있다는 것을 유의해야 한다.



참고 :

한국어의 불규칙 활용 https://ko.wikipedia.org/wiki/%ED%95%9C%EA%B5%AD%EC%96%B4%EC%9D%98_%EB%B6%88%EA%B7%9C%EC%B9%99_%ED%99%9C%EC%9A%A9 



 전에 형태소 분석기를 만드는 과정이 어절분리->어절내에서 기분석사전을 통한 분석->기분석사전 실패시 음절 또는 자소 분리후 사전 검색->완전히 실패시 통계적으로 형태소 추정이라고 했다.

 어절내에서 기분석사전 실패시 음절 또는 자소 분리후 사전 검색에서 따로 규칙을 생각하지 않고 무작정 분석하게 된다면 속도로 느린 뿐만아니라 기분석 사전에 없는 경우, 대략적인 형태소 추정도 불가능하다. 이를 위해 어절이 만들어지는 형태소 규칙을 잘 이용할 필요가 있다. 
 

 국립국어원 언어정보나눔터(https://ithub.korean.go.kr)에서 제공하는 문서중에 형태소 분석의 이해라는 문서를 보면 여기에 대한 정보가 있다. 예가 없는 경우도 있는데 이예를 보충해서 추가 했다.(내가 추가한 예의 경우 틀릴 수도 있다는 점을 감안하기 바란다.) 


어절

체언(N,PN,NM,XN,CN,UN,AS,HJ,ET) 하늘

체언+조사 하늘이(하늘+이)

체언+용언화 접미사+어미 공부하는(공부+하+는)

체언+용언화 접미사 + "ㅁ/기"+조사 학생이기를(학생+이+기+를)

체언+용언화 접미사+"아/어"+보조용언+어미 가공되어진다(가공+되+어+지+ㄴ다)

체언+"에서/부터/에서부터"+"이"+어미 집에서부터이다(집+에서부터+이+다)

용언+어미 가고(가+고)

용언+"ㅁ/기"+조사 배고픔을(배고프+ㅁ+을)

용언+"ㅁ/기"+이+어미 배고픔이다(배고프+ㅁ+이+다)

용언+"아/어"+보조용언+어미 죽어가고있다(죽+어+가고+있다[있+다])

용언+"아/어"+보조용언+"ㅁ/기"+조사 죽어감에(죽+어+가+ㅁ+에)

단일어(부사,관형사,감탄사) 빨리

부사+조사 빨리도(빨리+도)

체언+동사+어미 밥먹다(밥+먹+다)


이렇게 되어 있다.  여기서 어미는 일반어미와 선어말어미와 결합될 수도 있다. 

체언은 명사, 대명사, 수사, 의존명사, 접두사,  체언접미사 등을 포함한다.

용언화 접미사는 서술격 조사 "이다"도 포함되어 있다고 한다.


해당 문서 설명이 부족한 부분이 있는데 용언화 접미사는 형용사 파생 접미사 + 동사 파생 접미사를 포함한 것으로 보인다.


이를 정리해 보면

1. 체언을 포함한 단일어

2. 조사로 끝나는 경우

체언+조사 체언+용언화 접미사 + "ㅁ/기"+조사 용언+"ㅁ/기"+조사 용언+"아/어"+보조용언+"ㅁ/기"+조사 부사+조사



3. 어미로 끝나는 경우가 있다.

체언+용언화 접미사+어미 체언+용언화 접미사+"아/어"+보조용언+어미 체언+"에서/부터/에서부터"+"이"+어미 용언+어미 용언+"ㅁ/기"+이+어미 용언+"아/어"+보조용언+어미 체언+동사+어미


여기서 조금 조심해야 하는 부분은 어미가 기존 용언과 합쳐져서 나올 수 있다.

예를 들어 너 학교에 가? 에서 가는 가/VV + 아/E 가 합쳐진 어절로 볼 수 있다.

가아 라는 단어가 축약된 것으로 볼 수 있다. 이 점은 조금 조심이 필요할 것 같다.


조사의 경우, 받침으로 결합하는 경우에만 생각하면 되나 용언+어미의 경우, 글자 그대로 결합하지 않고 어간,어미가 변경되는 불규칙 활용되는 경우가 있다. 이 경우도 꼭 고려가 필

요하다.

추가 : 국립국어원 언어정보나눔터(https://ithub.korean.go.kr/)에서 제공하는 21세기 세종계획 말뭉치를 분석해보면 위의 case 가에서 조금씩 벗어나는 case 가 있는 것 같다. 해당 case 에 대해 정리하면 추가하도록 하겠다.