Conceptos Básicos
Multimodale Transformer verbessern die Echtzeit-Vorhersage chirurgischer Aktivitäten.
Resumen
Die Studie präsentiert einen multimodalen Transformer für die Echtzeit-Erkennung und Vorhersage chirurgischer Gesten und Trajektorien. Es wird die Fusion von kinematischen und Video-Daten untersucht, um die Genauigkeit der Gestenvorhersage zu verbessern. Die Studie zeigt, dass die Kombination von kinematischen und Video-Features die beste Leistung erzielt. Es wird auch die Bedeutung des Kontexts für die Vorhersage zukünftiger chirurgischer Aktivitäten hervorgehoben.
I. EINLEITUNG
- Chirurgische Roboter übersetzen die Bewegungen von Chirurgen in präzise Aktionen.
- Die Entwicklung von Robotersystemen erfordert das Verständnis chirurgischer Aktivitäten.
II. VORARBEITEN
- Gesten sind definiert als zweckgerichtete Aktionen mit semantischem Inhalt.
- Das JIGSAWS-Datenset enthält kinematische, Video- und Gestentranskripte.
III. METHODEN
- Der multimodale Transformer besteht aus drei Teilen: Merkmalsextraktion, Gestenerkennung und Vorhersage.
- Der Transformer wird für die Vorhersage von Gesten und Trajektorien verwendet.
IV. EXPERIMENTELLE BEWERTUNG
- Die Experimente zeigen, dass die Fusion von kinematischen und Video-Features die beste Leistung erzielt.
- Die Vorhersage von Gesten und Trajektorien wird bewertet.
V. SCHLUSSFOLGERUNGEN
- Der multimodale Transformer verbessert die Echtzeit-Vorhersage chirurgischer Aktivitäten.
Estadísticas
Unser Modell erreicht eine Genauigkeit von 87,3% für die Gestenerkennung.
Das Modell erzielt eine Echtzeit-Performance von 1,3 ms.
Citas
"Die Fusion von kinematischen und Video-Features führt zu einer verbesserten Leistung."