Core Concepts
RAGシステムの精度は、リトリーバーの性能に大きく依存する。本研究では、セマンティック検索手法とハイブリッドクエリ戦略を組み合わせた「ブレンド型RAG」を提案し、情報検索データセットでの新しいベンチマークを設定した。さらに、この「ブレンド型リトリーバー」をRAGシステムに適用することで、質問応答タスクでも従来を大きく上回る性能を実現した。
Abstract
本研究は、Retrieval-Augmented Generation (RAG)システムの精度向上に取り組んでいる。RAGシステムは、大規模言語モデル(LLM)にプライベートな文書コーパスを組み合わせて質問応答システムを構築する手法である。しかし、コーパスが大規模化するにつれ、リトリーバーの性能がRAG全体の精度に大きな影響を及ぼすようになる。
そこで本研究では、セマンティック検索手法(密度ベクトルインデックス、疎エンコーダインデックス)とハイブリッドクエリ戦略を組み合わせた「ブレンド型リトリーバー」を提案した。実験の結果、情報検索データセットのNQとTREC-COVIDで新しいベンチマークを達成し、質問応答データセットのSQUADでも従来手法を大きく上回る性能を示した。
具体的な手順は以下の通り:
BM25、密度ベクトル(KNN)、疎エンコーダの3種類のインデックスを構築
それぞれのインデックスに対して、マッチクエリ、クロスフィールド、最良フィールド、フレーズプレフィックス、ブールプレフィックスなどのハイブリッドクエリを適用
各データセットでトップk(k=5,10,20)の検索精度を評価し、最良の6つのブレンドリトリーバーを選定
選定したブレンドリトリーバーをRAGシステムに適用し、質問応答タスクでの性能を評価
結果として、疎エンコーダインデックスとベストフィールドクエリの組み合わせが最も優れており、NQデータセットで88%のトップ5精度、TREC-COVIDで94%のトップ10精度を達成した。さらにSQUADデータセットでも従来手法を大きく上回る性能を示した。
Stats
NQデータセットのトップ10検索精度は88.88%
TREC-COVIDデータセットのトップ10検索精度は87%
SQUADデータセットのトップ5検索精度は94.89%