Concepts de base
医療VLモデルには人種、性別、民族、言語などの属性に基づく大きな偏りが存在する。FairVLMedデータセットを用いた分析により、これらの偏りを明らかにし、最適輸送に基づくFairCLIPモデルによって、パフォーマンスと公平性のバランスを改善することができる。
Résumé
本研究では、医療VLモデルの公平性を包括的に分析するため、詳細な人口統計属性、正解ラベル、臨床ノートを含む初の医療VLデータセットであるFairVLMedを提案した。
FairVLMedを用いて、自然言語と医療ドメインで事前学習された2つの代表的なVLモデル(CLIP、BLIP2)の公平性を分析した結果、以下の知見が得られた:
- 人種、性別、民族、言語の各属性において、アジア人、男性、非ヒスパニック、スペイン語話者が優遇されていることが明らかになった。
- 医療ドメインでの事前学習は、人種、性別、民族の属性における公平性を向上させるが、言語属性では改善が見られなかった。
- CLIP、BLIP2の比較では、人種、性別の属性ではCLIPが、民族、言語の属性ではBLIP2が優れた公平性を示した。
これらの課題に対処するため、最適輸送に基づくFairCLIPを提案した。FairCLIPは、全体の分布と各人口統計グループの分布の差を最小化することで、パフォーマンスと公平性のバランスを改善することができる。
本研究は、医療VLモデルの公平性に関する先駆的な取り組みであり、FairVLMedデータセットとFairCLIPモデルの提案により、公平で効果的な医療AIシステムの開発に貢献することが期待される。
Stats
アジア人患者の診断精度が最も高く、黒人患者が最も低い
男性患者の診断精度が女性患者より高い
非ヒスパニック患者の診断精度が最も高く、ヒスパニック患者が最も低い
スペイン語話者の診断精度が最も高く、その他言語話者が最も低い
Citations
"医療分野におけるAIモデルの公平性は、倫理的かつ法的な要件であるだけでなく、患者の安全と医療の公平性を確保するための必要不可欠なものである。"
"VLモデルは、視覚情報と人間が書いた臨床ノートの相互作用により、公平性の問題をさらに悪化させる可能性がある。"