Tiivistelmä
手術における計算研究のためのオープンアクセスデータと特化した基盤モデルが不足している課題を解決するため、最大規模の一般外科ビデオデータセットを提供し、手術用途向けにリアルタイムで実行可能な一般外科ビジョントランスフォーマー(GSViT)を提案。手術ビデオからのビジョンプリトレーニング技術や手順固有のファインチューニングバージョンも公開。Cholec80フェーズ注釈タスクでのGSViTのパフォーマンス向上を示し、単一フレーム予測よりも優れた性能を発揮。
Tilastot
680時間の手術ビデオから成る最大規模の外科デモ映像コレクション
Cholec80フェーズ注釈タスクで改善されたパフォーマンス
Lainaukset
"Great progress has been made in Artificial Intelligence (AI) through the development of reusable general-purpose models."
"We believe a step forward for the field of surgical AI is toward building a foundation model for general surgery."
"Foundation models typically necessitate training on an enormous scale, ranging from tens of millions to trillions of samples."