本研究では、PromptReps と呼ばれる新しい手法を提案している。PromptRepsは、大規模言語モデル(LLM)にプロンプトを与えることで、文書や検索クエリの密な埋め込み表現と疎な単語表現を同時に生成する。これにより、追加の教師あり学習や無監督学習を必要とせずに、効果的な文書検索を実現できる。
具体的には、LLMに対して「この文章を1つの重要な単語で表現してください」というプロンプトを与える。LLMはこのプロンプトに従って、文章を最もよく表す単語を出力する。同時に、その単語の出力確率(ロジット)と最終層の隠れ状態を抽出し、それぞれ疎な単語表現と密な埋め込み表現として利用する。
これらの表現を用いて、密な検索と疎な検索を並行して行い、その結果を融合することで、BM25やLLMベースの既存手法を上回る検索精度を達成できることを示している。特に、大規模なLLMを使用した場合に顕著な精度向上が見られる。
本手法は、LLMの生成能力を活用しつつ、追加の学習を必要としないため、効率的で実用的な文書検索システムの構築に貢献できると期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shengyao Zhu... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18424.pdfDeeper Inquiries