核心概念
大規模言語モデル (LLM) の知識不足を補うRetrieval-Augmented Generation (RAG)技術の性能を包括的に評価するためのベンチマークCRAGを提案する。
大規模言語モデル (LLM) は目覚ましい発展を遂げているものの、知識の不足やハルシネーション(事実と異なる内容の生成)といった課題が残っています。これらの課題を解決する手段として、外部情報源からの検索結果を用いてLLMの応答を強化するRetrieval-Augmented Generation (RAG) 技術が注目されています。しかし、既存のRAGデータセットは、現実世界の多様で動的な質問応答 (QA) タスクを十分に表現できていませんでした。そこで、本研究では、現実世界のQAタスクをより忠実に模倣した包括的なRAGベンチマークであるCRAGを提案します。
CRAGは、現実世界のRAGシステムが直面する多様な課題を反映した、以下の5つの特徴を持つ包括的なベンチマークです。
1. 現実世界のユースケースを反映した質問
CRAGは、金融、スポーツ、音楽、映画、オープン ドメインの5つのドメインから収集した4,409組の質問と回答のペアで構成されています。質問は、現実世界のQAシナリオでユーザーが実際に尋ねる可能性のある質問を収集し、表現の多様性を高めるために言い換えや言い回しを加え、手動で真実性を検証しています。
2. 多様な質問タイプ
CRAGは、単純な事実質問に加えて、条件付き質問、比較質問、集約質問、マルチホップ質問、集合質問、後処理の重い質問、誤前提質問の7種類の複雑な質問を含んでいます。これらの質問タイプは、現実世界のユーザーのクエリを網羅的にカバーするように設計されています。
3. エンティティの人気度と時間的動態
CRAGは、人気のあるものからロングテールまで、さまざまな人気度のエンティティを反映しています。また、時間的動態も数秒から数年までと幅広く、現実世界の情報の変化を模倣しています。
4. 模擬APIによる検索の模倣
CRAGは、ウェブ検索と知識グラフ (KG) 検索をシミュレートするための模擬APIを提供しています。ウェブ検索APIは、実際の検索エンジンであるBrave Search APIから最大50ページのHTMLページを取得します。KG検索APIは、260万件のエンティティを持つ模擬KGにアクセスし、構造化データを取得します。
5. 信頼性の高い評価メカニズム
CRAGは、信頼性の高い評価のために、人間の評価とモデルベースの自動評価の両方を採用しています。人間の評価では、各回答に対して「完璧」「許容可能」「欠落」「不正解」のラベルを手動で付与します。自動評価では、「完璧」と「許容可能」を「正確」に統合し、「正確」「不正解」「欠落」の3つのラベルで評価を行います。