本論文は、効率的な特徴抽出と特徴融合を実現するTriplet SSMモジュールを提案し、それをUNet型アーキテクチャに統合したTM-Unetモデルを開発した。TM-Unetは、従来のVM-Unetと比較して、パラメータ数を3分の2に削減しつつ、医療画像セグメンテーションの精度を向上させている。
セグメントエニシングモデル(SAM)は医療画像セグメンテーションの一般化に大きな可能性を示しているが、医療画像に対する性能の改善が必要とされている。本研究では、SAMの新しいバリアントモデルの統合、より効率的な通信プロトコルの採用、新しいインタラクティブモードの追加、モデルのサブコンポーネントの微調整機能の提供を通じて、医療画像セグメンテーションのための基盤モデルの可能性を拡張する。
CNNとViTを組み合わせることで、様々なサイズのターゲットに対する医療画像セグメンテーションの精度を向上させることができる。提案手法のStagger Networkは、CNNとViTの特徴を効果的に融合することで、情報損失を最小限に抑えることができる。
提案するMaxViT-UNetフレームワークは、UNetベースの新しいハイブリッドエンコーダ-デコーダアーキテクチャを使用して、効率的で高精度な医療画像セグメンテーションを実現する。ハイブリッドデコーダは、局所的および大域的な特徴を効果的に融合し、セグメンテーション精度を大幅に向上させる。
提案手法AgileFormerは、医療画像セグメンテーションタスクにおいて、対象物体の多様な外観(形状、サイズ)を効果的に捉えるために、空間的に動的なコンポーネントを系統的に導入したモデルである。
医療画像セグメンテーションの課題を解決するため、事前学習されたTransformerモデルを活用し、超ピクセル化ガイド付与(SPGP)、画像埋め込みガイド付与(IEGP)、適応的注意機構ガイド付与(AAGP)の3つの要素を統合したMedical Visual Prompting (MVP)フレームワークを提案する。このフレームワークにより、様々な医療画像セグメンテーションタスクにおいて優れた性能を発揮し、パラメータ数も少ない。
U-Net v2は、低レベル特徴量に意味的情報を注入し、高レベル特徴量に細部情報を精緻化することで、医療画像セグメンテーションの精度を向上させる。
Mamba-UNetは、UNetのエンコーダ-デコーダ構造にVisual Mambaブロックを統合することで、医療画像内の長距離依存性をより効率的にモデル化し、優れたセグメンテーション性能を実現する。
医療画像セグメンテーションにおいて、特定の臨床目的に特化したモデルを開発するのではなく、多様な医療画像データを活用して汎用的な基盤モデルを構築することの重要性を示す。
LUCF-Netは、CNNとTransformerを組み合わせた新しい医療画像セグメンテーションアプローチである。局所的および大域的な特徴を効率的に抽出し、多層カスケード融合デコーダネットワークを設計することで、高精度なセグメンテーション性能を実現しつつ、モデルの複雑さを大幅に削減している。