本研究では、外科手術ビデオの時空間的行動認識を行うための新しいモデル「ViTALS」を提案する。ViTALSは、階層的な拡散時間畳み込み層とインターレイヤーの残差接続を組み込むことで、より細かい粒度と粗い粒度の時間的相関関係を捉えることができる。提案手法は、Cholec80およびUroSliceデータセットにおいて最先端の性能を達成し(それぞれ89.8%および66.1%の精度)、その有効性を実証している。