Character Set(문자집합, 문자셋) 과 character encoding(문자 인코딩)

2014. 8. 10. 00:35

개발자라면 Character Encoding 에 대해서는 많이 들게된다.

Character Set 과 character encoding(대체로 그냥 encoding 이라고도 부른다.) 은 조금씩 다른데 혼용해서 사용하기도 하지만 분명히는 다르다.

완성형, 조합형, 유니코드는 Character Set 이미지만 EUC-KR, CP949, UTF-8, UCS2 는 character encoding 이다.

문자 집합(character set, charset) 또는 문자셋은 정보를 표현하기 위한 글자들의 집합을 정의한 것으로, 직접적으로 사용되지 않을 수도 있고 한 문자 집합을 여러 문자 인코딩에서 쓸 수도 있다. 특히 집합 안의 문자들에 음수가 아닌 정수들을 배정한 것을 부호화된 문자 집합(coded character set, CCS)이라 한다. 문자 집합은 ASCII와 같이 더 이상의 문자가 추가될 수 없기도 하고, 유니코드와 같이 문자가 계속 추가될 수 있기도 하다.

http://ko.wikipedia.org/wiki/%EB%AC%B8%EC%9E%90_%EC%9D%B8%EC%BD%94%EB%94%A9

인코딩은 실제 메모리에 저장하는 방식이다.

http://stackoverflow.com/questions/2281646/whats-the-difference-between-encoding-and-charset

일반적으로 하나의 인코딩은 하나의 문자셋을 표현한다. 그런데 경우에 따라서는 하나의 인코딩이 여러개의 문자셋을 표현하기도 한다. 우리가 흔히 아는 EUC-KR는 KS X 1001와 KS X 1003을 표현한다. ( http://ko.wikipedia.org/wiki/Euc-kr )

저작자표시 비영리 변경금지 (새창열림)

흑백과 디지털

Character Set(문자집합, 문자셋) 과 character encoding(문자 인코딩)

티스토리툴바