Core Concepts
学習済みスパース表現に基づく効率的な近似検索手法Seismicを提案する。Seismicは、逆インデックスの新しい組織化と要約ベクトルを活用することで、高速な検索を実現する。
Abstract
本論文では、学習済みスパース表現に基づく効率的な近似検索手法Seismicを提案している。
学習済みスパース表現の特性分析
学習済みスパース表現では、ごく一部の次元が重要であるという「重要性の集中」という特性を発見した。
Seismicの提案
逆インデックスを幾何学的に凝集したブロックに分割し、各ブロックに要約ベクトルを付与する。
要約ベクトルと検索クエリの内積を計算することで、ブロックを効率的にスキップできる。
ブロック内の文書ベクトルを正確に計算することで、高精度な検索を実現する。
実験評価
Ms Marco、NQデータセットでSplade、Efficient Splade、uniCoil-T5の各学習済みスパース表現に対して評価
Seismicは、BigANN Challengeの優勝手法と比べて3.4倍~12倍高速で、他の手法と比べても1~2桁高速
精度低下は僅かで、Seismicは学習済みスパース表現に対する効率的な近似検索手法として優れている
Stats
Splade on Ms Marco 95%精度時の平均クエリ処理時間は303マイクロ秒
Efficient Splade on Ms Marco 95%精度時の平均クエリ処理時間は376マイクロ秒
uniCoil-T5 on Ms Marco 95%精度時の平均クエリ処理時間は2,668マイクロ秒
Splade on NQ 95%精度時の平均クエリ処理時間は1,032マイクロ秒
Quotes
"学習済みスパース表現は、関連性のある効果的なモデルであり、設計上解釈可能である"
"学習済みスパース表現に基づく検索は、従来の頻度ベースの言語モデルとの統計的な違いから、依然として課題がある"
"Seismicは、BigANNチャレンジの優勝手法と比べて3.4倍~12倍高速で、他の手法と比べても1~2桁高速"