本論文は、手術ビデオの自動分析を目的とした新しい深層学習モデルTUNeSを提案している。
まず、特徴抽出器として標準的なCNNを用いるが、個々のフレームではなく長期的な時系列コンテキストを考慮して学習する。これにより、意味的に豊かな特徴表現が得られる。
次に、時系列モデルとしてTUNeSを提案する。TUNeSは、U-Netの階層的構造とself-attentionメカニズムを組み合わせたアーキテクチャである。U-Netの特徴マップの中間層でself-attentionを適用することで、局所的な特徴と長期的な依存関係を効果的にモデル化できる。
実験では、特徴抽出器の学習に長期的なコンテキストを用いることで、ほとんどの時系列モデルの性能が向上することを示した。また、TUNeSがCholeC80データセットにおいて最先端の結果を達成することを確認した。さらに、TUNESは計算効率が高く、長時間の手術ビデオにも適用可能であることを示した。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문