核心概念
英国バイオバンクの網膜画像を用いて高血圧分類モデルを学習した結果、モデルの全体的なパフォーマンスは良好であるにもかかわらず、評価センターなどのサブグループ間でパフォーマンスに大きなばらつきが生じ、既存のバイアス軽減手法では改善効果が限定的であることが明らかになった。
要約
英国バイオバンクに基づく網膜画像分類モデルにおけるバイアスに関する研究:論文要約
書誌情報
Alloula, A., Mustafa, R., McGowan, D.R., & Papież, B.W. (2024). On Biases in a UK Biobank-based Retinal Image Classification Model. arXiv:2408.02676v2 [cs.LG].
研究目的
本研究は、英国バイオバンク(UKBB)の網膜画像を用いてトレーニングされた高血圧分類モデルにおけるバイアスの存在と、その軽減策を調査することを目的とする。
方法
78,346人から得られた80,966枚の眼底網膜画像を用いて、高血圧の有無を予測するInceptionV3ネットワークをトレーニングした。年齢、性別、評価センター、アルコール摂取、民族などのサブグループ間でモデルのパフォーマンスを評価し、バイアスの存在を調査した。さらに、リサンプリング、GroupDRO、ODR、DomainInd、LNL、SWAD、再較正など、既存のバイアス軽減手法を適用し、その有効性を評価した。
主な結果
- ベースラインモデルは、全体的には73±0.01%の精度と71±0.00%のAUCを達成した。
- しかし、サブグループ間でパフォーマンスに大きなばらつきが見られ、特に評価センター間ではAUCに最大10%の差が見られた。
- このようなばらつきは、データの不均衡、画像の質、一般化のばらつき、モデルの表現におけるサブグループ間の分離など、さまざまな要因によって説明できないことが明らかになった。
- バイアス軽減手法を適用した結果、全体的なパフォーマンスが低下したり、既存のばらつきが悪化するなど、その有効性は限定的であった。
結論
本研究は、UKBBの網膜画像を用いてトレーニングされた高血圧分類モデルにおいて、サブグループ間でパフォーマンスに大きなばらつきが生じることを明らかにした。これは、標準化された大規模データベースを用いても、バイアスが生じる可能性を示唆している。さらに、既存のバイアス軽減手法では、これらのばらつきを効果的に軽減できないことが示された。
意義
本研究は、医療画像解析におけるバイアスの存在とその複雑さを明らかにした点で意義深い。バイアスの特性を理解し、特定のバイアスに合わせた効果的な軽減策を開発することが急務であることが示唆された。
制限と今後の研究
本研究では、高血圧の予測という特定のタスクに焦点を当てた。今後、他の網膜画像タスクや他の画像モダリティにこれらの結果がどのように拡張されるかを検討する必要がある。また、UKBBデータセットの詳細な調査を行い、選択バイアス、データセットの標準化、モデルのバイアス間の相互作用を理解し、一部の評価センターでパフォーマンスに大きなばらつきが生じた理由を解明する必要がある。
統計
ベースラインモデルは、高血圧分類において73±0.01%の精度と71±0.00%のAUCを達成した。
モデルのAUCは、年齢層によって15%以上、センターによって10%以上のばらつきがあった。
最もパフォーマンスの低いサブグループのAUCは、平均AUCの0.71を大きく下回っていた。
年齢層、評価センター、アルコール摂取者、民族など、一部のサブグループでは、リコール率(過少診断につながる可能性がある)に10~32%の大幅な差が見られた。
最もパフォーマンスの低い評価センター(センターf)は、どの属性で条件付けしても、はるかに低いAUCを示した(年齢で条件付けした結果は表A2参照)。
センターfの画像は、他のセンターの画像(69%-80%)の範囲内である約76%が高血圧であり、センター間のばらつきは、有病率の違いによるものではなかった。
年齢層と性別のばらつきについては、高血圧は年齢と強い正の相関があり(図A1)、男性は高血圧の有病率が高いため、属性とターゲットラベル間の相関がバイアスの原因となる可能性がある。
センターと性別のばらつきについては、すべてのグループが均等に表現されていた。
年齢層別のばらつきについては、データの不均衡が影響している可能性があり、最も高齢の年齢層は、画像全体の2.5%しかなく、過少に表現されている。
トレーニングデータとテストデータの間で、全体的なAUCの低下と比較して、異なるセンター間では、最もパフォーマンスの低いグループのAUCの低下が目立った(表2参照)。
同様に、センター間の差は、未知のデータで大きくなり、モデルの一般化がセンターによって異なることを示唆している。
年齢と性別のサブグループでは、この差はそれほど顕著ではなく、おそらく未知のデータにおける全体的なパフォーマンスの低下に関連していると考えられる。
モデルのペナルチメイト層の特徴空間における各画像を、4成分の主成分分析(分散の85%以上を説明)で分析した結果、高血圧の有無による特徴の分離が顕著に見られた。
また、最もパフォーマンスの低いセンター(f)の画像の分布から、予想外の異常値が観察された。
このセンターのいくつかの主成分のカーネル密度推定値と、センターfから他のセンターへの特徴の分布を分離するワッサーシュタイン距離の一貫した増加に明らかな違いが見られた(図2)。
年齢のばらつきを軽減するために、SWADは全体的なAUCを維持できる唯一の方法であり、他のすべての軽減方法は、特にgDROにおいてAUCの低下をもたらした(図3)。
興味深いことに、このAUCの低下は、評価センターの軽減モデルではそれほど顕著ではない。
LNLとODRのみがAUCと適合率の顕著な低下を示し、他のモデルは4つの指標すべてにおいて同程度の全体的なパフォーマンスを示した(図A3)。
性別のばらつきを軽減した場合、その効果はさまざまであった(図A4参照)。
年齢層別のばらつきについては、DomainIndは、全体的なパフォーマンスをわずかに低下させながらも(図A3)、ベースラインと比較して、精度、AUC、リコールの差を減らし、最もパフォーマンスの低いグループのパフォーマンスを向上させた唯一のモデルであった(表3)。
センター関連のばらつきについては、モデルの公平性向上効果は非常に限定的であり、特に最もパフォーマンスの低いグループのパフォーマンス向上効果は限定的であった。
SWADは、ベースラインのばらつきを維持またはわずかに改善した唯一の方法であった(表3)。
その他の方法では、少なくとも1つの指標に悪影響を及ぼした。
例えば、リサンプリングは精度の差を拡大し、ODRは最小AUCを0.02低下させ、再較正は最小リコールを0.02低下させた。
また、サブグループごとの最適な決定しきい値(再較正用)は0.50~0.73の範囲であり、ベースラインモデルが異なるサブグループの特性に一様に適応していないことが示唆された。