核心概念
大型語言模型在回應醫療查詢時仍容易產生事實不符或虛構的資訊,這可能對社會和醫療產生重大影響。
摘要
本研究首次探討大型語言模型在回應真實世界醫療查詢時產生的幻覺。研究團隊提出了MEDHALU基準測試集,包含各種醫療主題的查詢和相應的幻覺回應,並標註了幻覺類型和幻覺文本段落。
研究團隊還提出了MEDHALUDETECT框架,評估了不同大型語言模型(如LLaMA-2、GPT-3.5和GPT-4)在檢測醫療幻覺方面的能力。結果發現,大型語言模型的表現遠不如醫療專家,有時甚至不如一般大眾。為了彌補這一差距,研究團隊提出了專家輔助的方法,通過融入專家的推理能力來提高大型語言模型檢測醫療幻覺的能力,取得了顯著的性能提升。
統計資料
大型語言模型在檢測醫療幻覺方面的平均宏F1分數為0.52,遠低於醫療專家的0.70。
GPT-4在檢測上下文矛盾幻覺方面的宏F1分數為0.72,優於其他幻覺類型。
專家輔助方法使GPT-4在檢測醫療幻覺的平均宏F1分數提高了6.3個百分點。
引述
"大型語言模型在醫療領域仍容易產生事實不符或虛構的資訊,這可能對社會和醫療產生重大影響。"
"研究發現,大型語言模型的表現遠不如醫療專家,有時甚至不如一般大眾在檢測醫療幻覺方面。"
"為了彌補這一差距,研究團隊提出了專家輔助的方法,通過融入專家的推理能力來提高大型語言模型檢測醫療幻覺的能力。"