核心概念
検索支援型生成(RAG)システムにおける高度な検索手法の評価と比較分析を行い、検索精度と回答の類似性を向上させる手法を明らかにする。
要約
本研究は、検索支援型生成(RAG)システムにおける高度な検索手法の性能評価を行っている。
主な内容は以下の通り:
検索精度と回答の類似性を評価指標として、以下の高度な検索手法を比較分析した:
センテンス窓口検索
ドキュメントサマリインデックス
仮想ドキュメント埋め込み(HyDE)
マルチクエリ
最大限の周辺関連性(MMR)
Cohere再ランク
LLMベースの再ランク
センテンス窓口検索が最も高い検索精度を示したが、回答の類似性は必ずしも高くない結果となった。
HyDEとLLMベースの再ランクが検索精度を大幅に向上させることが分かった。一方、MMRやCohere再ランクは基本的なRAGシステムと大差がなかった。
ドキュメントサマリインデックスは、さらなる改善の余地があるものの、堅実な検索アプローチであることが示された。
本研究で使用したデータセットや評価手法は、今後のRAGシステムの研究に活用できるよう公開されている。
統計
検索精度の平均値は、センテンス窓口検索が最も高く0.8前後、次いでHyDE+LLM再ランクが0.7前後であった。
回答の類似性の平均値は、センテンス窓口検索が3.5前後、ドキュメントサマリインデックス+Cohere再ランクが4.0前後であった。