Core Concepts
大アルファベット文字列の効率的な格納と処理のために、アルファベット分割アプローチに基づくランク/選択データ構造を提案し、実装の高速化を図る。
Abstract
本論文では、大アルファベット文字列の効率的な格納と処理に関する課題に取り組む。特に、アルファベット分割アプローチに基づくランク/選択データ構造の実装を改善することに焦点を当てている。
主な貢献は以下の通り:
アルファベット分割アプローチの実装を改善し、圧縮空間を使いつつ、ランク/選択操作を効率的に実行できるようにする。提案手法は理論的にも興味深い性能トレードオフを示す。
提案手法をテキストデータベースからのスニペット抽出や逆引きリストの交差処理などの情報検索システムの主要な操作に適用し、競争力のある性能を示す。
大アルファベット文字列の高速圧縮にも提案手法を適用し、状態の最前線のRLFMインデックスに対して、わずかな追加空間で大幅な高速化を実現する。
提案手法を分散メモリシステムでも効率的に実装できることを示す。
全体として、提案するアルファベット分割スキームは、ランク/選択操作をサポートするだけでなく、情報検索システムの主要な操作を効率的に実現するのに有効であることが分かる。
Stats
文字列sの長さはn = 505,268,435、アルファベットサイズはσ = 8,468,328である。
文字列sの0次経験エントロピーはH0(s) = 12.45ビットである。
疎分割では476個、密分割(ℓmin = 1)では24個、密分割(ℓmin = lg 23)では46個のサブアルファベットに分割される。