核心概念
本稿では、デジタルツインに基づくシーン表現を用いることで、外科手術ビデオからの手術フェーズ認識のロバスト性を向上させることができるという主張を検証している。
書誌情報
Ding, H., Zhang, Y., Shu, H., Lian, X., Kim, J. W., Krieger, A., & Unberath, M. (2024). Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin-based Scene Representation. arXiv preprint arXiv:2410.20026v1.
研究目的
本研究は、外科手術ビデオからの手術フェーズ認識において、デジタルツイン(DT)ベースのシーン表現を用いることで、従来のエンドツーエンドの深層学習モデルのロバスト性と汎化性能を向上させることを目的とする。
方法
手術ビデオの各フレームから、セグメンテーションモデル(SAM2)を用いて手術器具と臓器のインスタンスセグメンテーションを行い、深度推定モデル(DepthAnything)を用いて深度マップを生成する。
これらのセグメンテーションマスクと深度マップを組み合わせ、DTベースのシーン表現を構築する。
DTベースのシーン表現を、既存の手術フェーズ認識モデル(Surgformer)の入力として用い、Cholec80データセットで学習を行う。
モデルの性能を、Cholec80テストセット、CRCDデータセット、ロボット手術トレーニングデータセットを用いて、従来のエンドツーエンドモデルと比較評価する。
主な結果
DTベースのシーン表現を用いたモデルは、従来のエンドツーエンドモデルと比較して、分布外(OOD)データセットや、画像の破損に対して高いロバスト性を示した。
特に、CRCDデータセットではビデオレベルの精度が51.1%、ロボット手術トレーニングデータセットでは96.0%、破損の大きいCholec80テストセットでは64.4%の精度を達成した。
一方、従来のエンドツーエンドモデルは、これらのデータセットにおいて著しく性能が低下した。
結論
本研究の結果は、DTベースのシーン表現が、手術フェーズ認識モデルのロバスト性と汎化性能を向上させる上で有効であることを示唆している。
意義
本研究は、手術データサイエンスにおける、より汎用性の高い、解釈可能なシステムの開発に貢献する可能性があり、手術支援システムの臨床応用を加速させる可能性がある。
限界と今後の研究
現状のフレームワークでは、SAM2を用いたセマンティックセグメンテーションに、最小限のインタラクションが必要となる。
今後は、オープンボキャブラリービジョン基盤モデルや、ビジョン言語モデルを用いることで、このインタラクションを自動化し、より実用的なフレームワークを構築する必要がある。
また、DTベースのシーン表現から抽出される特徴量の、情報量をさらに向上させることで、より高精度な手術フェーズ認識が可能になると考えられる。
さらに、説明可能なAI技術を導入することで、モデルの解釈性を高め、臨床応用を促進する必要がある。
統計
CRCDデータセットではビデオレベルの精度が51.1%
ロボット手術トレーニングデータセットでは96.0%
破損の大きいCholec80テストセットでは64.4%の精度を達成