核心概念
Reward-RAG 透過整合獎勵模型和 CriticGPT 來增強檢索增強生成 (RAG) 模型,從而提高生成文本的相關性和質量。
論文概述
本論文介紹了一種名為 Reward-RAG 的新型方法,旨在透過獎勵驅動監督來增強檢索增強生成 (RAG) 模型。與以往專注於訓練語言模型 (LM) 以利用從外部來源檢索到的外部知識的 RAG 方法不同,Reward-RAG 透過採用 CriticGPT 訓練專用獎勵模型,使檢索到的信息適應特定領域。這種獎勵模型生成合成數據集,用於微調 RAG 編碼器,使其輸出更符合人類偏好。該方法具有多功能性,可透過特定領域的微調有效地應用於各個領域。
研究方法
Reward-RAG 的核心是整合了強化學習以增強 RAG 功能。其首先根據指示文檔與特定查詢相關性的反饋來建立獎勵模型。由於收集人類反饋既耗時又成本高昂,因此該方法建議利用 CriticGPT 來衡量檢索到的文檔和查詢的相關性。CriticGPT 被指示使用一小组人類偏好示例來模擬人類偏好。利用這些模型,研究人員在 RAG 框架內微調現有的檢索模型,以便從外部語料庫中檢索高質量的內容。這種方法旨在彌合通用檢索功能與用戶偏好的特定需求之間的差距,從而提高生成響應的相關性和質量。
實驗結果
研究人員在來自多個領域的公開基準數據集上對 Reward-RAG 進行了評估,並將其與最先進的方法進行了比較。實驗結果表明,該方法在性能上有顯著提高,突出了 Reward-RAG 在提高生成響應的相關性和質量方面的有效性。這些發現強調了將獎勵模型與 RAG 相結合以在自然語言生成任務中取得優異成果的潛力。
主要貢獻
提出了一種名為 Reward-RAG 的新型方法,透過將獎勵模型整合到傳統的 RAG 框架中,使 RAG 與人類偏好保持一致。
提出結合使用 CriticGPT 和人類反饋,這顯著減少了訓練所需的人類偏好數據量。
在不同領域進行了實驗,將該方法與各種 RAG 任務中的強基準模型進行了比較,並分析了該方法的不同方面(包括使 RAG 與新領域保持一致)以證明其有效性。
統計資料
使用 GPT-4 作為 CriticGPT 來標記查詢和文檔對之間的相關性水平。
訓練數據包括來自自然問題 (NQ)、TriviaQA (Tri) 和 SQUAD 數據集的查詢和文檔。
使用預處理的 2018 年英文維基百科作為語料庫。
從 NQ 數據集中抽取 9000 個查詢和每個查詢的 3-5 個文檔來訓練獎勵模型。
使用來自 NQ 和 TriviaQA 數據集的 100k 個查詢作為訓練集來微調檢索編碼器。
使用 E5-large-unsupervised 作為基準檢索編碼器進行微調。
使用 Llama-3.1-8B-Instruct 作為評估模型。
評估指標包括 NQ 和 TriviaQA 的完全匹配 (EM) 和 TriviaQA 的準確率。