本研究では、相関を活用したカラム圧縮スキーム「Corra」を提案する。Corraは、2つのカラム間の相関を活用する「Peer Encoding」と、階層的な相関を活用する「Subaltern Encoding」の2つの手法から成る。
Peer Encodingは、2つのカラム間の差分を圧縮することで、カラムの値域を縮小し、圧縮率を向上させる。例えば、TPC-Hのlineitemテーブルにおいて、l_receiptdateをl_shipdateを基準に差分圧縮することで、58.3%の圧縮率を達成した。
Subaltern Encodingは、カラムペア(city, zip-code)のように、ある値に対応する値の集合が限定的な場合に有効である。DMVデータセットにおいて、zip-codeをcityを基準に差分圧縮することで、53.7%の圧縮率を達成した。
また、Corraでは、どのカラムを基準カラム、どのカラムを差分圧縮カラムとするかを最適化する手法も提案している。
クエリ実行時のオーバーヘッドは小さく、Peer Encodingでは最大1.66倍、Subaltern Encodingでは最大1.56倍であった。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések