核心概念
セグメントエニシングモデル(SAM)は医療画像セグメンテーションの一般化に大きな可能性を示しているが、医療画像に対する性能の改善が必要とされている。本研究では、SAMの新しいバリアントモデルの統合、より効率的な通信プロトコルの採用、新しいインタラクティブモードの追加、モデルのサブコンポーネントの微調整機能の提供を通じて、医療画像セグメンテーションのための基盤モデルの可能性を拡張する。
要約
本研究は、セグメントエニシングモデル(SAM)を医療画像セグメンテーションに適用するための拡張プラットフォームであるSAMM Extendedを提案する。
SAMMExtendedの主な特徴は以下の通りである:
- 新しいSAMバリアントモデルの統合
- 軽量化されたMobileSAMや医療画像向けに微調整されたMedSAMなどの最新のSAMバリアントモデルを統合する。
- より効率的な通信プロトコルの採用
- リアルタイムのマスク推論を可能にするため、より効率的で安定した通信方式を採用する。
- 新しいインタラクティブモードの追加
- 2Dバウンディングボックスや3Dバウンディングボックスなど、新しいプロンプト入力モードを追加する。
- 3つの解剖学的ビュー(冠状断、矢状断、横断)での対話的セグメンテーションをサポートする。
- モデルのサブコンポーネントの微調整機能の提供
- ユーザー指定のデータセットを使ってモデルの一部を微調整できる機能を提供する。
これらの拡張により、SAMをベースとした医療画像セグメンテーションの可能性が大きく広がる。リアルタイムのセグメンテーション、直感的なプロンプト入力、モデルの柔軟な微調整など、医療現場での実用性が高まることが期待される。また、得られた結果は、画像誘導療法、複合現実インタラクション、ロボット操縦、データ拡張などの応用にも活用できる。
統計
医療画像セグメンテーションにおいて、リアルタイムのマスク推論に要する時間は約0.008秒である。
完全なサイクル時間(プロンプト入力からマスク表示まで)は約0.06秒である。これは以前のSAMMの10倍の速さである。
3つの解剖学的ビューでの事前計算された特徴マップを利用することで、ビュー間の柔軟な対話的セグメンテーションが可能となる。