Core Concepts
CNNとViTを組み合わせることで、様々なサイズのターゲットに対する医療画像セグメンテーションの精度を向上させることができる。提案手法のStagger Networkは、CNNとViTの特徴を効果的に融合することで、情報損失を最小限に抑えることができる。
Abstract
本論文では、医療画像セグメンテーションにおける様々なサイズのターゲットに対する課題に取り組んでいる。CNNは局所的な特徴を捉えるのに優れているが、大きなターゲットの予測には不得意である一方、ViTは長距離の依存関係を学習できるため大きなターゲットの予測に優れている。しかし、小さなターゲットの予測には課題がある。
そこで本論文では、Stagger Networkを提案している。Stagger Networkは以下の3つのモジュールから構成される:
Parallel Module: CNNとViTの2つの並列ブランチを持ち、特徴を強化する。
Stagger Module: CNNの上位層とViTの下位層の特徴を融合する。これにより、情報損失を最小限に抑えることができる。
Information Recovery Module: 融合された特徴をさらに強化する。
理論的な分析により、提案手法のStagger Moduleは従来の手法よりも情報損失を低減できることを示している。
実験結果から、提案手法のStagger Networkは、Synapse、ACDC、MoNuSegデータセットにおいて、小さなターゲットの予測精度を大幅に向上させつつ、大きなターゲットの予測精度も維持できることが示された。
Stats
小さなターゲットの予測精度が9%向上した。
大きなターゲットの予測精度も維持できた。