核心概念
CXRデータセットの長尾分布と多ラベル特性に対処するための効果的な手法を提案し、実践的な洞察を得る。
摘要
本論文では、長尾分布と多ラベル分類の課題に取り組むため、CXR-LTチャレンジを実施した。
- CXR-LTデータセットを作成し、26の疾患所見ラベルを持つ377,110枚のCXR画像を公開した。
- 上位チームの手法を分析し、以下の洞察を得た:
- 重み付き非対称損失関数、データ拡張、アンサンブルなどの手法が長尾分布への対処に有効
- 多視点特徴の融合、言語モデルとの統合など、マルチモーダルアプローチが有望
- 自動ラベリングと人手ラベリングの比較から、ラベル分布のシフトが大きいことが分かった。
- ランキング安定性分析により、小規模な評価セットでは順位の変動が大きいことが示された。
最後に、マルチモーダルな基盤モデルを用いた少数クラスや未知クラスへの汎化手法を提案した。
统计
長尾分布の特徴として、一部の疾患は非常に稀であり、全体の0.2%しかない。
自動ラベリングと人手ラベリングを比較すると、ラベル分布に大きな違いがある。例えば、肺炎は81%減少、大動脈石灰化は88%増加した。
引用
"CXRデータセットの長尾分布と多ラベル特性に対処するための効果的な手法を提案し、実践的な洞察を得る。"
"マルチモーダルな基盤モデルを用いた少数クラスや未知クラスへの汎化手法を提案した。"