מושגי ליבה
RAGアプリケーションを自動的に評価し、その限界点を明らかにするための手法を提案する。
תקציר
本研究では、RAGアプリケーションを自動的に評価するためのRAGProbeアプローチを提案している。RAGProbeは、評価シナリオのスキーマを定義し、さまざまな種類の質問-回答ペアを生成することで、RAGパイプラインの限界点を明らかにする。
具体的には以下の6つの評価シナリオを定義している:
- 単一の文書内に答えがある数値を求める質問
- 単一の文書内に答えがある日付/時間を求める質問
- 単一の文書内に答えがある選択肢式の質問
- 単一の文書内に答えがある複数の質問を組み合わせた質問
- 複数の文書に分散して答えがある複数の質問を組み合わせた質問
- 文書コーパス内に答えがない質問
これらの評価シナリオに基づいて、RAGProbeは自動的に質問-回答ペアを生成し、5つのオープンソースのRAGパイプラインに適用して評価を行った。
その結果、以下のような知見が得られた:
- 複数の質問を組み合わせた質問(シナリオ4と5)に対して最も高い失敗率(91%と78%)が観測された。
- RAGProbeは既存の手法と比較して、より多くの失敗を検出し(平均51%増)、より高品質の質問-回答ペアを生成できることが示された。
- 学術分野のデータセットでは60%、オープンドメインのデータセットでは53%と62%の失敗率が観測され、ドメインによる影響が見られた。
これらの結果から、RAGアプリケーションの開発においては、特に複数の質問を組み合わせた質問への対応が重要であることが示唆された。RAGProbeは、RAGアプリケーションの継続的な監視と改善に役立つ自動化アプローチを提供する。
סטטיסטיקה
単一の文書内に答えがある数値を求める質問に対して、RAGパイプラインの平均失敗率は45%であった。
単一の文書内に答えがある日付/時間を求める質問に対して、RAGパイプラインの平均失敗率は40%であった。
単一の文書内に答えがある選択肢式の質問に対して、RAGパイプラインの平均失敗率は29%であった。
単一の文書内に答えがある複数の質問を組み合わせた質問に対して、RAGパイプラインの平均失敗率は78%であった。
複数の文書に分散して答えがある複数の質問を組み合わせた質問に対して、RAGパイプラインの平均失敗率は91%であった。
文書コーパス内に答えがない質問に対して、RAGパイプラインの平均失敗率は65%であった。
ציטוטים
"複数の質問を組み合わせた質問(シナリオ4と5)に対して最も高い失敗率(91%と78%)が観測された。"
"RAGProbeは既存の手法と比較して、より多くの失敗を検出し(平均51%増)、より高品質の質問-回答ペアを生成できることが示された。"
"学術分野のデータセットでは60%、オープンドメインのデータセットでは53%と62%の失敗率が観測され、ドメインによる影響が見られた。"