本研究論文介紹了 CRAG,一個用於評估和改進檢索增強生成 (RAG) 系統的全新基準測試。RAG 系統透過結合檢索到的外部資訊和大型語言模型 (LLM) 來回答問題。然而,現有的 RAG 資料集不足以代表真實世界問答 (QA) 任務的多樣性和動態性。
CRAG 的設計旨在解決現有基準測試的局限性,並提供一個更真實、更全面、更具洞察力的 RAG 評估框架。
CRAG 中的問題模擬了真實使用者在實際 QA 情境中提出的問題,確保評估結果與真實世界效能相關。
CRAG 包含多種類型的問題,涵蓋常見用例和複雜用例,以呈現真實世界的挑戰並揭示現有解決方案的潛在局限性。
CRAG 允許輕鬆理解模型在不同資料區塊上的效能,反映其應對不同類型挑戰的能力。
CRAG 透過準確的真實答案、良好的效能指標、簡單可靠的評估方法和具有統計顯著性的指標,確保可靠的效能評估。
CRAG 中的情境和資料不會快速過時,並且會隨著時間推移而更新和改進,以實現長期研究和實驗比較。
CRAG 包含 4,409 個問答對和模擬 API,涵蓋金融、體育、音樂、電影和開放領域等五個領域,以及八種類型的問題,包括簡單事實問題、條件問題、比較問題、聚合問題、多跳問題、集合查詢、後處理密集型問題和錯誤前提問題。
CRAG 設計了三個任務來測試 RAG 解決方案的不同組成部分:
評估模型根據提供的網頁資訊生成答案的能力。
評估模型查詢結構化資料來源並綜合不同來源資訊的能力。
評估模型對大量檢索結果進行排序並處理檢索雜訊的能力。
CRAG 採用基於評分的評估方法,將答案分為完美、可接受、遺漏和錯誤四類,並分別給予 1、0.5、0 和 -1 的分數。此外,CRAG 還採用人工評估和基於模型的自動評估來確保評估的可靠性。
實驗結果顯示,CRAG 對現有的 LLM 和 RAG 系統提出了挑戰。即使是最先進的 LLM,在 CRAG 上的準確率也只有 34% 左右,而 RAG 系統的準確率也只有 44% 左右。這表明,在構建完全可靠的 QA 系統方面仍有很大的改進空間。
總之,CRAG 為推進 RAG 研究提供了一個寶貴的基準測試,揭示了現有解決方案的差距,並為未來的研究方向提供了寶貴的見解。
翻譯成其他語言
從原文內容
arxiv.org
深入探究