Core Concepts
本稿では、視線追跡データを用いて医療画像のセグメンテーションをリアルタイムに修正する、MedSAMに基づく新しいインタラクティブセグメンテーション手法を提案し、その有効性を検証しています。
Abstract
論文概要
本稿は、視線追跡データを用いた医療画像のインタラクティブセグメンテーションに関する研究論文です。
研究目的
- 視線追跡データを活用し、医療画像、特に腹部CTスキャンにおける器官のセグメンテーション精度を向上させる。
- 視線追跡によるインタラクティブセグメンテーションが、従来のマウスクリックやバウンディングボックスを用いた手法と比較して、より直感的で高速なアノテーションを可能にすることを示す。
手法
- Segment Anything Model in Medical Images (MedSAM) をベースモデルとして採用。
- 人間の視線データを模倣した合成視線座標を用いて、MedSAMのマスクデコーダとプロンプトエンコーダを微調整。
- 視線座標のプロンプトへの組み込み方として、ランダムな座標選択、マスクの差異に基づく座標選択、過去の視線データの活用など、複数の戦略を検討。
結果
- 合成視線座標を用いた実験では、提案手法が従来のMedSAMや他の最先端2Dモデルと比較して、様々な腹部臓器において一貫して優れたセグメンテーション性能(DSC)を示した。
- 特に、十二指腸や副腎など、セグメンテーションが困難なケースにおいても、顕著な改善が見られた。
- 放射線科医の代理者による評価実験では、提案手法は平均Dice係数0.861を達成し、バウンディングボックスを用いたMedSAM (平均Dice係数0.884) と同等の性能を示した。
- 一方、特定の臓器(左右の腎臓、十二指腸など)では、バウンディングボックスを用いたMedSAMよりも優れた性能を示した。
結論
- 視線追跡データを用いたインタラクティブセグメンテーションは、腹部CTスキャンにおける器官セグメンテーションにおいて、従来手法に匹敵、あるいは凌駕する精度を達成できる。
- 本手法は、放射線科医のワークフローを最適化し、医療画像診断の効率と精度向上に貢献する可能性がある。
今後の展望
- 腹部画像以外の様々な医療画像データセットへの適用範囲の拡大。
- 3次元データへの対応と、ボリューム画像に対する効果的なセグメンテーション技術の開発。
- より多くの参加者による評価実験の実施。
Stats
提案手法の平均Dice係数は0.9054で、nnUNetV2の0.8580、ResUNetの0.8667、オリジナルMedSAMの0.8171を上回った。
人による評価実験では、提案手法の平均Dice係数は0.861で、バウンディングボックスを用いたMedSAMの0.884と比較して同等の性能を示した。
視線追跡を用いたセグメンテーションの平均所要時間は9.7±4.9秒で、バウンディングボックスを用いたMedSAMの5.7±3.1秒よりも長かった。
Quotes
"To the best of our knowledge, there is currently only one gaze-assisted interactive medical segmentation model, which was presented recently [31]."
"In this paper, we aim to incorporate eye gaze data into the interactive segmentation workflow."
"Overall, the main contributions of this study are listed as follows: • We present a novel approach for the real-time correction of segmentation in CT scans based on sequential gaze information. More specifically, we suggest adapting existing interactive segmentation frameworks to incorporate gaze data as a prompt."