本研究首次探討大型語言模型在回應真實世界醫療查詢時產生的幻覺。研究團隊提出了MEDHALU基準測試集,包含各種醫療主題的查詢和相應的幻覺回應,並標註了幻覺類型和幻覺文本段落。
研究團隊還提出了MEDHALUDETECT框架,評估了不同大型語言模型(如LLaMA-2、GPT-3.5和GPT-4)在檢測醫療幻覺方面的能力。結果發現,大型語言模型的表現遠不如醫療專家,有時甚至不如一般大眾。為了彌補這一差距,研究團隊提出了專家輔助的方法,通過融入專家的推理能力來提高大型語言模型檢測醫療幻覺的能力,取得了顯著的性能提升。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Vibhor Agarw... في arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19492.pdfاستفسارات أعمق