核心概念
本稿では、CTスキャンにおける骨セグメンテーションにおいて、事前学習なしで様々なプロンプト戦略を用いるSAMファミリーモデルの有効性を評価し、その性能がプロンプト戦略、モデルの種類とサイズ、データセット特性、最適化対象によって異なることを示しています。
要約
論文情報
- タイトル: CTスキャンにおける骨セグメンテーションのためのSAMファミリーモデルのゼロショット機能
- 著者: Caroline Magg, Hoel Kervadec, Clara I. Sánchez
- 機関: アムステルダム大学、アムステルダムUMC
- 出版状況: arXiv preprint (2024年11月13日)
研究目的
本研究は、CTスキャンにおける骨セグメンテーションにおいて、Segment Anything Model (SAM) ファミリーモデルのゼロショット機能を、様々な非反復的な2Dプロンプト戦略を用いて評価することを目的としています。
方法
- 80件のCTスキャンデータセット(肩、手首、膝の3つの骨格領域を含む)を用いて、SAM、SAM2、Med-SAM、SAM-Med2Dの4つのSAMファミリーモデルを評価しました。
- 各モデルに対して、バウンディングボックス、中心点、重心、正のランダム点、負のランダム点の組み合わせからなる32のプロンプト戦略をテストしました。
- セグメンテーション性能は、Dice類似係数 (DSC) と95%ハウスドルフ距離 (HD95) を用いて評価しました。
- また、各モデルの推論時間も測定しました。
結果
- 全体として、バウンディングボックスとオブジェクトのすべての中心点を組み合わせたプロンプトが、すべてのテスト設定において最良の結果をもたらしました。
- SAM-Med2Dは最速の推論時間を示しましたが、他のSAMファミリーモデルと比較してセグメンテーション性能は劣っていました。
- SAMとSAM2モデルは、Med-SAMやSAM-Med2Dよりも優れたセグメンテーション性能を示しました。これは、医用画像データセットでファインチューニングされたモデルが、一般的な表現能力を失っている可能性があるためと考えられます。
- プロンプト戦略は、SAMとSAM2モデルの性能に大きな影響を与えましたが、SAM-Med2Dの性能にはほとんど影響を与えませんでした。
結論
- SAMファミリーモデルは、CTスキャンにおける骨セグメンテーションにおいて、事前学習なしで優れた性能を発揮する可能性があります。
- 最適なプロンプト戦略は、モデルの種類とサイズ、データセット特性、最適化対象によって異なります。
- 本研究の結果は、CTスキャンにおける骨セグメンテーションのための非反復的な2Dプロンプト戦略を選択するための予備的なガイドラインを提供します。
限界と今後の研究
- 本研究で使用されたデータセットは比較的小規模であり、さらなる検証が必要です。
- 今後の研究では、3Dプロンプト戦略やインタラクティブなプロンプト戦略の評価、および臨床現場におけるSAMファミリーモデルの有用性の評価を行う必要があります。
統計
データセットは、肩、手首、膝の3つの骨格領域からなる80件のCTスキャンで構成されています。
各モデルに対して、32のプロンプト戦略をテストしました。
59 out of 258 methods achieve a DSC higher than 91%: 28 Sam and 31 Sam2 methods.
43 methods achieve a HD95 lower than 2 mm: 23 Sam and 20 Sam2 methods.
Sam-Med2d has the fastest average inference time due to the smaller image size, as it is the only model using 256 × 256.
引用
"Overall, Sam and Sam2 prompted with a bounding box in combination with the center point for all the components of an object yield the best results across all tested settings."
"As the results depend on multiple factors, we provide a guideline for informed decision-making in 2D prompting with non-interactive, “optimal” prompts."