Keskeiset käsitteet
黃金文件的檢索對於 RAG 模型的效能至關重要,而降低近似最近鄰搜尋的準確度對效能的影響微乎其微,這為提高 RAG 模型的效率提供了可能性。
這篇研究論文探討了檢索系統在提升問答系統中基於檢索的增強生成 (RAG) 模型效能方面的貢獻。作者針對標準問答和溯源問答任務,評估了不同檢索參數對 RAG 模型效能的影響。
主要發現
黃金文件的重要性: 研究發現,在 LLM 上下文中包含黃金文件可以顯著提高問答的正確率。即使只有一個黃金文件,也能帶來顯著的效能提升。
近似最近鄰搜尋的影響: 降低近似最近鄰 (ANN) 搜尋的準確度對問答效能的影響微乎其微。這表明在實際應用中,可以犧牲少許的搜尋準確度來換取更快的速度和更低的記憶體佔用。
雜訊文件的影響: 與先前研究結果相反,作者發現,在黃金文件或檢索文件中添加雜訊文件會降低問答的正確率。這表明文件雜訊對 RAG 模型效能的影響需要進一步研究。
研究意義
這項研究為設計用於 RAG 模型的檢索系統提供了實用的見解。研究結果表明,開發者應優先考慮能夠檢索更多黃金文件的模型,並可以利用 ANN 搜尋來提高效率,而不會顯著影響效能。
研究限制和未來方向
這項研究僅評估了檢索器和閱讀器分別訓練的系統。未來研究應探討端到端訓練的 RAG 系統,例如融合解碼器 (FiD) 模型。
未來工作應測試這些發現在其他設定中的普遍性,例如多向量檢索器。
Tilastot
將近似最近鄰搜尋的召回率設定為 0.7 只會導致黃金文件召回率下降 2-3%。
在黃金文件或檢索文件中添加雜訊文件會降低正確率,與只使用黃金文件的基準相比。