核心概念
RadFlag 是一種針對醫學視覺語言模型 (VLM) 開發的黑盒方法,旨在檢測自動生成的放射學報告中的幻覺,並通過選擇性預測提高報告的準確性。
摘要
RadFlag:一種用於檢測醫學視覺語言模型幻覺的黑盒方法
研究目標:
本研究旨在開發一種名為 RadFlag 的黑盒方法,用於檢測醫學視覺語言模型 (VLM) 自動生成的放射學報告中的幻覺,並探討其在提高報告準確性和實現選擇性預測方面的潛力。
方法:
RadFlag 是一種基於抽樣的標記技術,用於識別和移除自動生成的放射學報告中的幻覺內容。其主要步驟如下:
- 生成候選報告和高溫報告語料庫: 對於給定的醫學影像,使用 VLM 生成一個低溫候選報告和多個高溫報告。
- 計算蘊含分數: 將候選報告分割成句子,並使用 GPT-4 計算每個句子相對於高溫報告語料庫的蘊含分數,該分數代表高溫報告中支持該句子的數量。
- 句子級別標記: 將每個句子的蘊含分數與校準後的閾值進行比較,低於閾值的句子被標記為潛在的幻覺。
- 報告級別選擇性預測: 統計每個候選報告中被標記的句子數量,並與另一個校準後的閾值進行比較。如果超過閾值,則將整個報告標記為可能包含較多幻覺,建議進行額外審查或自動拒絕。
主要發現:
- RadFlag 能夠以較高的精度標記幻覺句子,在 Medversa 模型上實現了 73% 的精度,同時標記了 28% 的幻覺句子;在 RaDialog 模型上實現了 71% 的精度,同時標記了 24% 的幻覺句子。
- RadFlag 的報告級別選擇性預測方法能夠有效識別包含較多幻覺的報告,並顯著區分被標記報告和接受報告的品質差異。
- 研究結果表明,被標記的報告平均包含的幻覺句子數量顯著高於接受的報告,證明了 RadFlag 在識別低品質報告方面的有效性。
研究意義:
本研究提出了首個針對 VLM 開發的黑盒幻覺檢測方法 RadFlag,為提高醫學影像報告生成的準確性和可靠性提供了新的思路。
局限性和未來研究方向:
- RadFlag 在不同醫學發現類別上的表現存在差異,未來可以開發針對特定類別的閾值以提高性能。
- 未來可以進一步研究如何檢測報告中的其他錯誤類型,例如遺漏,以提供更全面的報告評估。
- 未來可以驗證 AI 模型在正確和錯誤情況下置信度的差異,以確定哪些模型最能從基於抽樣的方法中受益。
統計資料
Medversa 模型上,RadFlag 實現了 73% 的精度,同時標記了 28% 的幻覺句子。
RaDialog 模型上,RadFlag 實現了 71% 的精度,同時標記了 24% 的幻覺句子。
Medversa 模型中,當 λ2 = 2 時,57 個被標記的報告平均每個報告有 4.2 個幻覺,而 151 個被接受的報告平均每個報告只有 1.9 個幻覺。
引述
"To the best of our knowledge, RadFlag is the first work to extend this concept to VLMs."
"Our empirical results show that RadFlag can accurately flag 28% of hallucinatory sentences while maintaining a flagging precision of 73% on Medversa, a recent high-performing report generation model."
"At the report level, our method analyzed 208 reports generated by MedVersa and divided them into two sets: a flagged set with 4.2 hallucinations per report (n = 57) and an accepted set with only 1.9 hallucinations per report (n = 151)."