核心概念
CoFE-RAG 框架透過引入多粒度關鍵詞和一個涵蓋多樣化數據場景的基準數據集,實現了對檢索增強生成模型全鏈路的全面評估,有效解決了傳統評估方法依賴黃金文本塊標註的局限性。
論文概述
本論文提出了一個名為 CoFE-RAG 的框架,旨在全面評估檢索增強生成 (RAG) 模型的各個階段,包括分塊、檢索、重排序和生成。該框架引入多粒度關鍵詞來評估檢索結果,並發布了一個涵蓋多樣化數據場景的基準數據集,為 RAG 模型的評估提供了更全面和可靠的工具。
研究背景
近年來,檢索增強生成 (RAG) 技術作為提升大型語言模型 (LLM) 性能的有效方法備受關注。然而,現有的 RAG 模型評估方法存在數據多樣性不足、問題定位不明確以及檢索評估不穩定等問題,限制了 RAG 模型的進一步發展和應用。
CoFE-RAG 框架
CoFE-RAG 框架通過以下幾個關鍵方面解決了上述問題:
多粒度關鍵詞: 該框架引入了粗粒度和細粒度關鍵詞來評估檢索結果,取代了傳統方法對黃金文本塊標註的依賴,提高了評估的效率和穩定性。
粗粒度關鍵詞:從查詢和文本中提取的最具代表性和相關性的詞語,用於初步篩選檢索到的文本塊。
細粒度關鍵詞:以列表形式呈現,每個列表對應從文本中提取的一個信息點,為回答查詢提供詳細的參考。
基準數據集: 論文發布了一個涵蓋多樣化數據場景的基準數據集,包含四種類型的查詢(事實型、分析型、比較型和教程型)、多粒度關鍵詞和參考答案,以及涵蓋各種文檔格式的知識庫。
全鏈路評估: CoFE-RAG 框架可以評估 RAG 模型的各個階段,包括分塊、檢索、重排序和生成,為模型的優化和改進提供了更全面的指導。
實驗結果
論文通過一系列實驗驗證了 CoFE-RAG 框架的有效性。實驗結果表明,現有的檢索模型在處理事實型查詢方面表現出色,但在處理分析型、比較型和教程型查詢方面仍有很大提升空間。此外,現有的 LLM 在利用檢索到的文本生成更準確和可靠的答案方面也表現不佳。
總結
CoFE-RAG 框架為評估 RAG 模型提供了一個全面、可靠和高效的工具,有助於推動 RAG 技術的進一步發展和應用。
统计
92.2% 的合成查詢通過人工審核。
87.3% 的合成多粒度關鍵詞通過人工審核。
74.8% 的生成參考答案通過人工審核。
事實型查詢在所有查詢類型中佔比最大。
使用 bge-large-zh-v1.5 模型進行檢索,bge-reranker-large 模型進行重排序,GPT-4o 模型進行生成,塊大小為 512 個詞符,重疊度為 100 個詞符時,系統性能最佳。