요즘은 apache arrow에 대해 공부 중이었다.

2020. 2. 5. 21:40

인터넷에 https://cldellow.com/2018/06/22/sqlite-parquet-vtable.html이 글을 읽고나서 apache Parquet 에 대해 관심이 생겼다. https://github.com/cldellow/sqlite-parquet-vtable이 sqlite 확장을 이용하면 sqlite 를 이용해서 10억 데이터에 대해 query 를 날릴 수 있는 것 같다. 물론 그냥 sqlite 로도 query 를 날릴 수 있긴한데, 좀 많이 느리다. 내가 1000만 데이터를 sorting 하려고 했는데, 이게 좀 많이 느렸다. indexing 을 하면 좀 괜찮긴 한데, 뭔가 DB가 커진 것 같았다. 그래서 좀더 빠르게 query 를 날릴 수 있는 방법을 찾다가 맨 위 블로그를 발견했다.

이 Parquet 라는게 apache arrow 로 통합되었다고 한다. 그래서 코드를 어찌어찌 https://github.com/apache/arrow 을 이용해서 sqlite-parquet-vtable 코드를 수정해봤다. 그런데 메모리 에러가 발생했다. 이 작업을 거의 2달 동안 했는데... 실패했다. (시작할 때는 https://yiunsr.tistory.com/824이 글을 올릴 떄 쯤이니 꽤 오랬동안 붙잡고 있었네...). 뭐, 이런 일은 또 시기가 지나면 버그들이 수정될 테니 그 때 쯤에 다시 도전해봐야겠다.

저작자표시 동일조건

흑백과 디지털

요즘은 apache arrow에 대해 공부 중이었다.

티스토리툴바