外科手術ビデオ言語事前学習の課題を解決するため、階層的知識増強アプローチと新しいPeskaVLPフレームワークを提案する。これにより、テキスト情報の損失を軽減し、手術手順の時空間的特性を理解することができる。
結合深度神經網絡和外科手術活動語法,可以顯著提高腹腔鏡手術主要意圖的識別性能。
外科的活動の階層的構造を表すグラマーモデルを用いることで、視覚的特徴のみに依存する従来手法よりも、一次意図の認識精度を大幅に向上させることができる。
内視鏡的粘膜下層剥離術(ESD)における外科的フェーズを正確に認識するためのSPRMambaフレームワークを提案する。Mambaの長期的な時間モデリング能力と変換器の短期的な時間モデリング能力を組み合わせたScaled Residual TranMamba (SRTM)モジュールを導入し、複雑なESD手術の時間的関係をより効果的にキャプチャする。さらに、計算コストを削減するための時間的サンプリング戦略を提案する。
専門家が行う手技の観察から、同じ課題を遂行する複数の方法を学習することができる。
外科手術の安全性と自律性向上のためのリアルタイムなジェスチャーおよび軌道予測のためのマルチモーダルトランスフォーマーアーキテクチャを提案する。