가짜 데이터용 한국인 이름 데이터

2022. 8. 29. 20:42

여러 language 에서 DB 테스트나 unittest 를 위한 random 데이터 생성기를 지원한다. Random Data generator 라든지 fake data generator 라는 이름으로 불린다. 이러한 라이브러리는 영어권 데이터는 잘 지원하는데 반해 한국어 데이터는 조금 데이터가 부족하게 있는 경우가 많다. 그래서 한국 사람 이름을 생성하다보면 좀 어색하게 생성되거나 기초 데이터 자체가 좀 적은 경우가 있다. 내 기준에서 한국어 인명 데이터가 가장 충실한 것은 https://github.com/faker-js/faker/blob/main/src/locales/ko/name/first_name.ts Faker 라는 js 라이브러리이다. 그런데 address 데이터는 좀 아쉬웠다. 그래서 내가 라이브러리 까지 만들것은 아니지만 여러 데이터를 수집하고 있다.
우선 사람 이름(성씨 제외)은 대한민국 법원, 전자가족관계등록시스템 통계서비스에서 수집할 수 있다. https://stfamily.scourt.go.kr/st/StFrrStatcsView.do?pgmId=090000000025 에서 출생신고 하는 이름현황과 https://stfamily.scourt.go.kr/st/StFrrStatcsView.do?pgmId=090000000062 에서 개명신고 이름 현황을 확인 할 수 있다. 다만 이 통계가 상위 20개 밖에 안 보여주기 한 번에 얻을 수 없고, 일일 데이터에 대해 통계를 일일이 또는 프로그래밍으로 수집해야 한다. 그리고 이 통계가 대략적인 정보 밖에 수집할 수 없어서 모든 데이터를 획득할 수는 없다. 다만 일일 데이터를 잘 수집하면 한국사람들이 많이 사용하는 이름을 확인 할 수 있다.
개인적으로 프로그래밍으로 출생신고 데이터는 2008 부터, 개명신고 데이터는 2012년(2008년 부터 데이터 검색이 되지만 실제 데이터는 2011년 12월 부터 데이터가 존재했다.) 까지 수집해서 그 통계를 기록했다. 3번 이상 중복해서 나타나는 이름만을 첨부해서 올린다. 누군가 fake db 를 만들 때 유용하게 사용했으면 좋겠다.

남자이름.csv

0.02MB

여자이름.csv

0.01MB

저작자표시 동일조건 (새창열림)

흑백과 디지털

가짜 데이터용 한국인 이름 데이터

티스토리툴바