核心概念
本研究系統性地評估了大型語言模型在醫療分類決策中與人類偏好和價值觀的一致性,並測量了特定對齊方法的效果。
摘要
本研究探討了大型語言模型(LLM)在醫療分類決策(以醫療分流為例)中的效能。主要發現如下:
-
LLM在"簡單"決策上的表現優於"複雜"決策,表明它們在高風險分流情況下可能需要人類監督。
-
對齊過程對不同LLM的影響存在差異,有些模型的表現反而下降。這突出了對齊過程的複雜性。
-
一些模型在一致性和與參考標準的一致性之間存在權衡。這凸顯了多方面效能的重要性。
-
參考標準的微小變化會導致模型排名發生大幅變化,突出了定義和驗證決策標準的重要性。
-
不同對齊方法的效果存在差異,基於專家示例的對齊效果優於基於抽象原則的對齊。
-
模型的道德推理能力有限,主要依賴"照顧最弱勢群體"和"最大化總收益"等原則,但解釋和應用存在差異。
總的來說,本研究突出了在將AI系統引入高風險醫療決策時需要考慮的複雜性和挑戰。需要持續評估和可能的重新培訓,以維持與不斷變化的醫療優先事項和道德標準的一致性。
統計資料
醫療分流決策中,簡單情況下LLM的一致性(κ)為0.22-0.34,複雜情況下為0.01-0.11。
對齊後,GPT4o的一致性從0.17提高到0.26,而Gemini Advanced和Claude Sonnet 3.5的一致性反而下降。
在基於人口組別的推廣任務中,Claude Sonnet 3.5達到了完美的一致性(κ=1.0),而GPT4o和Gemini Advanced的一致性分別為0.60和0.41。
在基於QALY的推廣任務中,所有模型的一致性都很低(κ<0.1),表現很差。
引述
"決策,即使沒有不確定性,對人類來說也是一項具有挑戰性的任務,因為決策涉及權衡替代的、多重的、個人的和社會的價值觀。"
"給定缺乏單一黃金標準的情況,必須根據多個黃金標準評估各種屬性的決策。同樣重要的是,多樣性的黃金標準要求評估特定LLM在特定上下文和任務中的對齊過程的合規性,例如使用ACI。"