手術における計算研究のためのオープンアクセスデータと特化した基盤モデルが不足している課題を解決するため、最大規模の一般外科ビデオデータセットを提供し、手術用途向けにリアルタイムで実行可能な一般外科ビジョントランスフォーマー(GSViT)を提案。手術ビデオからのビジョンプリトレーニング技術や手順固有のファインチューニングバージョンも公開。Cholec80フェーズ注釈タスクでのGSViTのパフォーマンス向上を示し、単一フレーム予測よりも優れた性能を発揮。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Samuel Schmi... at arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.05949.pdfDeeper Inquiries