手術ビデオ理解のために、器具と組織の位置情報と相互作用を包括的に表現し、検出するモデルを提案する。
本論文は、手術ビデオの時系列的特徴を効果的にモデル化するための新しい深層学習アーキテクチャTUNeSを提案する。TUNeSは、U-Netの階層的構造とself-attentionメカニズムを組み合わせることで、長期的な依存関係を捉えつつ局所的な特徴も保持できる。