本研究提出了 RAGProbe,一種自動化評估 Retrieval Augmented Generation (RAG) 管線的方法。RAGProbe 包含三個主要組件:1) 問答生成器,2) RAG 評估運行器,和 3) 語義答案評估器。
問答生成器使用評估場景模式從文檔語料庫中生成問答對。評估場景模式包括文檔採樣策略、分塊策略、場景特定提示和提示策略。RAG 評估運行器負責適應 RAG 實現並收集 RAG 管線生成的答案。語義答案評估器比較問答生成器生成的答案和 RAG 管線生成的答案。
我們在 5 個開源 RAG 管線和 3 個數據集(Qasper、Google NQ 和 MS Marco)上評估了 RAGProbe。結果顯示,與現有最先進方法相比,RAGProbe 產生的問答對更有效地暴露了 RAG 管線的局限性。具體而言,RAGProbe 在 Qasper、Google NQ 和 MS Marco 數據集上分別產生了 60%、53% 和 62% 的失敗率,而現有最先進方法分別產生了 37%、37% 和 42% 的失敗率。此外,RAGProbe 生成的問答對的有效性也更高。
本研究提出了一種自動化評估 RAG 管線的方法,可以集成到現有的持續集成和持續部署(CI/CD)管道中,以提高 RAG 管線的質量。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shangeetha S... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19019.pdfDomande più approfondite