手術ビデオ理解のために、器具と組織の位置情報と相互作用を包括的に表現し、検出するモデルを提案する。


coremsg

手術ビデオ理解のための器具-組織相互作用検出フレームワーク


本論文は、手術ビデオの時系列的特徴を効果的にモデル化するための新しい深層学習アーキテクチャTUNeSを提案する。TUNeSは、U-Netの階層的構造とself-attentionメカニズムを組み合わせることで、長期的な依存関係を捉えつつ局所的な特徴も保持できる。



手術フェーズ認識のための時間的U-Netと自己注意機構