核心概念
本稿では、乳がんのリンパ節転移を検出するために広く使用されているCamelyonデータセットの品質問題に対処し、再処理されたCamelyon+データセットと、複数のMILモデルと特徴抽出器を用いたベンチマーク結果を提供することで、計算病理学におけるAI開発を促進することを目的とする。
摘要
論文概要
本論文は、乳がんのリンパ節転移検出に広く用いられるCamelyonデータセットの品質問題に対処し、計算病理学におけるAI開発を促進するためのベンチマークを提案する研究論文である。
研究目的
- Camelyonデータセットにおける画像品質の低さ、ラベルの不正確さ、アノテーションの欠如といった問題に対処する。
- 精度向上のため、Camelyonデータセットの画像をフィルタリングし、ラベルを修正し、ピクセルレベルのアノテーションを追加する。
- 修正したデータセットを用いて、様々なMIL(Multiple Instance Learning)手法と特徴抽出器を再評価し、ベンチマークを確立する。
方法
- データセットの精査と修正:
- 専門の病理学者によるCamelyon-161とCamelyon-172データセットの精査。
- ぼかし、染色不良、治療によるアーティファクト、陽性病巣の識別困難などの基準に基づいたWSI(Whole Slide Image)の除外。
- Camelyon-161の二値分類ラベルを四値分類に拡張し、Camelyon-172データセットとのマージを容易にする。
- Camelyonデータセットのピクセルレベルのアノテーションを修正し、以前はアノテーションがなかった陽性スライドに追加。
- データセット:
- Camelyon-16: 陰性238枚、微小転移71枚、マクロ転移69枚、ITC(Isolated Tumor Cells)8枚の計386枚のWSI。
- Camelyon-17: 陰性633枚、微小転移103枚、マクロ転移182枚、ITC 46枚の計964枚のWSI。
- Camelyon+: 更新されたCamelyon-16とCamelyon-17を組み合わせたデータセット。陰性871枚、微小転移174枚、マクロ転移251枚、ITC 54枚の計1,350枚のWSI。
- 実験:
- Camelyon-17比較実験: ラベル修正前後のCamelyon-172データセットを用いて、PLIP5、UNI6、Gigapath7の3つの病理学的に事前学習された特徴抽出器を評価。
- Camelyon+ベンチマーク実験: ResNet-5020、VIT-S21、PLIP5、CONCH9、UNI6、Gigapath7の6つの特徴抽出器を用いて、マージされたCamelyon+データセットでMILアプローチを評価。
結果
- データセットの修正により、モデル評価指標の精度が向上し、モデルランキングの公平性が向上した。
- 病理学的に事前学習された特徴抽出器は、MILのパフォーマンスを大幅に向上させる。
- 画像テキスト対照学習を用いたCONCH9モデルは、より大規模なデータセットを用いたUNI6やGigapath7モデルに匹敵する性能を達成した。
- モデルは精度とAUCの点では比較的高い性能を示したが、F1スコア、再現率、適合率は著しく低かった。
- モデルは陰性、微小、マクロの分類では比較的良好な性能を示したが、ITCの分類では低い性能を示した。
結論
- データセットの品質は、計算病理学における深層学習モデルの性能に大きな影響を与える。
- Camelyon+データセットは、病理学的画像解析における課題、特にCamelyon+のようなロングテールデータセットにおけるバランスの取れたモデル性能の達成方法を浮き彫りにする。
- Camelyon+は、転移領域のサイズによって分類される臨床分類タスクにMILアプローチが最適かどうかという重要な疑問を提起する。
今後の研究
- ロングテールデータセットにおけるモデル性能のバランスを取るための改善。
- 転移領域のサイズによる分類に適した、より効果的なMILアプローチの探求。
- 臨床現場におけるCamelyon+ベンチマークの妥当性のさらなる検証。
统计
Camelyon-16データセットには、399枚のWSIが含まれており、トレーニング用に270枚、テスト用に129枚に分割されている。
Camelyon-17データセットは、1000枚のWSIで構成され、トレーニング用に500枚、テスト用に500枚に均等に分割されている。
データクリーニング後、Camelyon-16データセットは386枚のWSIで構成され、陰性238枚、微小転移71枚、マクロ転移69枚、ITC WSI 8枚となっている。
Camelyon-17データセットは964枚のWSIで構成され、陰性633枚、微小転移103枚、マクロ転移182枚、ITC 46枚となっている。
更新されたCamelyon-16とCamelyon-17のデータセットを組み合わせて、Camelyon+データセットを作成した。これは、陰性871枚、微小転移174枚、マクロ転移251枚、ITC WSI 54枚の計1,350枚のWSIで構成されている。
引用
「近年、大規模データで事前学習された病理学の一般的な基盤モデルが注目を集めている」
「高品質な病理画像データセットを取得することは、病理画像の解像度が非常に高く、アノテーションに専門知識が必要なため、依然として困難である」
「計算病理学における基盤モデルとダウンストリームタスクの継続的な開発により、高品質な病理画像データセットがますます重要になっている」
「Camelyonシリーズは、乳がんリンパ節転移の検出に焦点を当てた公開されている病理データセットであり、Multiple Instance Learning(MIL)手法の評価に広く使用されている」