Core Concepts
大規模言語モデルは患者の人種や性別などの属性に基づいて偏った出力を示す可能性がある。モデルの設計や学習手法の選択が、このような偏りに大きな影響を及ぼす。
Abstract
本研究は、大規模言語モデル(LLM)の臨床的意思決定支援への適用における社会的偏りを包括的に評価しました。8つの一般的および医療特化型のLLMを3つの質問応答(QA)データセットの臨床ビネットを用いて分析しました。
実験の結果、一部のLLMでは人種や性別に基づく有意な偏りが観察されました。特に、医療特化型のPalmyra-MedやMeditronでは、特定の人口統計学的グループに対して治療薬の処方や専門医紹介などの推奨に偏りが見られました。一方、GPT-4では逆の偏りが見られるなど、モデルによって偏りのパターンが大きく異なることが分かりました。
さらに、プロンプト設計の影響を検討したところ、Chain of Thoughtなどの手法が偏りを軽減する可能性が示唆されました。これは、モデルに推論過程の説明を求めることで、潜在的な偏見に頼らずに答えを導き出すことができるためと考えられます。
これらの結果は、LLMの臨床応用における公平性確保の重要性を示しています。モデル設計、学習データ、プロンプト設計など、LLMの開発と運用における様々な側面で偏りへの配慮が必要です。また、医療従事者と機械学習専門家の協働による取り組みが不可欠です。
Stats
人種別の痛み管理薬処方率に有意な差がみられた(p≤0.05)。
人種と性別の組み合わせによって、専門医紹介率や画像検査実施率に有意な差がみられた(p=0.058, p=0.085)。
Quotes
"LLMの臨床応用における公平性確保の重要性を示しています。"
"モデル設計、学習データ、プロンプト設計など、LLMの開発と運用における様々な側面で偏りへの配慮が必要です。"
"医療従事者と機械学習専門家の協働による取り組みが不可欠です。"