本論文は、クラスタベース検索に基づく近似検索手法を提案している。具体的には以下の3点が主な貢献である:
クラスタ内の文書の最大項重みをセグメント化することで、クラスタレベルの上界推定を改善し、より効率的な検索を実現する。
2つのパラメータ(μ, η)を用いて、ランク順位の近似保証を確率的に提供する。μは従来の閾値オーバーエスティメーション手法と同様の役割を果たし、ηは追加の安全性条件として機能する。
密な単語埋め込みを活用してクラスタリングを行い、上記の手法を実現する。
提案手法の評価では、MS MARCO passageデータセットとBEIRデータセットを用いて、従来手法と比較して高い検索精度と効率性を示している。また、Anytime Rankingなどの早期打ち切り手法や静的インデックス削減手法との組み合わせも検討している。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yifan Qiao,S... pada arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08896.pdfPertanyaan yang Lebih Dalam