Core Concepts
단일 열 압축 기법의 한계를 극복하기 위해 열 간 상관관계를 활용한 새로운 압축 기법을 제안한다.
Abstract
이 논문은 단일 열 압축 기법의 한계를 극복하기 위해 열 간 상관관계를 활용한 새로운 압축 기법 Corra를 소개한다.
Corra는 두 가지 상관관계 기반 압축 기법을 제안한다:
Peer 인코딩: 날짜 열 간 차이를 활용하여 압축하는 기법으로, TPC-H의 lineitem 테이블에서 58.3%의 압축률을 달성했다.
Subaltern 인코딩: 계층적 구조를 가진 열 쌍(예: 도시-우편번호)을 압축하는 기법으로, DMV 데이터셋에서 53.7%의 압축률을 달성했다.
이 두 기법은 단일 열 압축 기법에 비해 압축 크기를 크게 줄일 수 있다. 또한 쿼리 성능 측면에서도 큰 오버헤드 없이 압축된 데이터에 대한 접근이 가능하다.
Stats
lineitem 테이블의 l_receiptdate 열을 l_shipdate 열 대비 58.3% 압축 가능
DMV 데이터셋의 zip-code 열을 city 열 대비 53.7% 압축 가능
Quotes
"단일 열 압축 기법은 데이터 간 상관관계를 활용하지 않기 때문에 압축률의 한계에 도달했다."
"Corra는 열 간 상관관계를 활용하여 단일 열 압축 기법을 능가하는 압축률을 달성할 수 있다."