本研究では、医療画像セグメンテーションのための新しいMaxViT-UNetフレームワークを提案している。このフレームワークは、UNetベースのエンコーダ-デコーダアーキテクチャを採用し、ハイブリッド構造を持つ。
エンコーダ部分では、効率的なマルチ軸自己注意機構(Max-SA)を備えたMaxViTブロックを使用することで、局所的および大域的な特徴を効果的に抽出する。
デコーダ部分では、新しいハイブリッドデコーダブロックを提案している。このブロックは、上位レベルのデコーダ特徴をアップサンプリングし、スキップ接続特徴と融合させる。その後、マルチ軸注意機構を使用して特徴を洗練させる。このデコーダブロックを繰り返し適用することで、段階的にセグメンテーションマスクを生成する。
提案手法は、MoNuSeg18およびMoNuSAC20データセットで従来手法を大きく上回る性能を示した。特に、MoNuSAC20の多クラスセグメンテーションタスクにおいて顕著な改善が見られた。これは、ハイブリッドデコーダの設計により、局所的および大域的な文脈情報を効果的に活用できるためと考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問