요즘 한국어 말뭉치를 수집하고 있다. 예전부터 자연어분석, 형태소분석 이런 것에 관심이 많다보니 한국어 말뭉치에 대해 관심이 많았다. 그러다 개인적으로 GPT 나 LLAMA 같은 LLM 모델들이에 관심을 가지다보니 다시 말뭉치로 내 관심이 돌아오게 되었다. 
 전에 공개된 세종프로젝트도 그랬지만 정부프로젝트로 수집된 말뭉치들이 사용에 제약이 많은 것 같다. 일부 말뭉치들이 소설, 대화글이기 때문에 저자권에 위반된다든지 개인정보 처리에 문제가 될 수는 있어서 제약이 있는 것은 이해 할 수 있다. 그런데 모든 말뭉치가 그렇게 제약을 가져야 하는지는 의문이다.
 특히 신문, 방송사의 경우 정부의 재정이 직접 투입되는 것으로 알고 있는데, 몇년이 지난 기사의 경우 일부라도 공개 할 수 있는 것 아닌가? 이건 해결 할 수 없는지 의문이다.  

 어째든 이런 저런 이유로 여러 말뭉치들이 서약을 한다든지 사용에 제약이 있다. 그래서 이런 제약이 없는 말뭉치를 수집하는 프로젝트를 하고 있다. 이름하여 보따리 프로젝트이다. https://github.com/yiunsr/boddari

 CCL BY, CCL BY-SA 같은 크리에이티브 커먼즈 라이선스와 기부된 글(https://gongu.copyright.or.kr/gongu/main/main.do 이런 곳에서 찾을 수 있다.), 저자권이 소멸된 글, 정부에서 생성하는 "공공누리 라이선스"를 가진글 들을 모우고 있다. 이런 글들은 해당 라이선스만 지키서 사용하면된다(저자권자 표시, 2차 창작된 글도 동일한 라이선스로 공개할 것 같은 조건). 아무래도 상업적사용도 가능할 것 같아 CCL BY-NC 계열은 생각하고 있지 않다. 

이것 저것 다양하게 모은 상태인데, 벌써 글 수집에 한계가 느껴진다. 우리나라의 경우 CCL-BY 나 CCL-BY-SA 글이 많지 않다. 위키피디아나 리브레 위키를 제외하고는 거의 없다시피 하다. 그리고 CCL 에 대한 이해가 부족한 것 같다. 블로그 글의 경우 CCL BY-NC 같은 라이선스를 표시해두고 자바스크립트로 글 복사를 막는 형태의 블로그가 많이 존재한다. CCL 를 붙였다는 것은 공유를 하자는 의미있는데, 글 복사를 막는 것은 뭐하자는 것인지 모르겠다. 

 말뭉치 수집을 위해 따로 wiki 라도 만들어서 사용자들에게 기부라도 받아야 하나 하는 생각이 든다.