本研究開發了一個包含約70,000個眼科領域文件的RAG管道,包括生物醫學文獻、臨床實踐指南和相關維基百科文章。在長篇消費者健康問答的案例研究中,系統地評估了10名醫療專業人員對100個問題的大型語言模型響應,包括超過500個參考文獻。
評估結果顯示,沒有使用RAG的大型語言模型在參考文獻中有45.3%是虛構的,34.1%存在小錯誤,只有20.6%是正確的。相比之下,使用RAG的大型語言模型顯著提高了正確參考文獻的比例(54.5%),並減少了錯誤率(18.8%存在輕微虛構,26.7%存在錯誤)。RAG檢索到的前10篇文獻中,有62.5%被選為響應中的前3篇參考文獻,平均排名為4.9。使用RAG還提高了證據歸屬(從1.85提高到2.49,P<0.001),但略微降低了準確性(從3.52降到3.23,P=0.03)和完整性(從3.47降到3.27,P=0.17)。
這些結果表明,大型語言模型經常在響應中產生虛構和錯誤的證據,這引發了醫療領域應用的擔憂。RAG大幅減少了這類證據的比例,但仍面臨挑戰。與現有研究不同,結果突出了:(1)大型語言模型可能不會選擇RAG提供的最高排名文獻,導致虛構證據仍然存在,(2)大型語言模型可能會錯過RAG提供的最高排名文獻,以及(3)RAG提供的不相關文獻會降低響應的準確性和完整性,尤其是在長篇問答等具有挑戰性的任務中。
總之,在長篇醫療問答中,RAG方法相比非RAG方法表現更有效。然而,在證據檢索、選擇和歸屬方面仍存在挑戰,突出了需要進一步發展領域特定的大型語言模型和RAG技術。
翻譯成其他語言
從原文內容
arxiv.org
深入探究