Effiziente Verarbeitung und Analyse von Chirurgievideo-Inhalten zur Erkennung von Gesten
Durch die Verwendung des Bridge-Prompt-Frameworks kann ein vortrainiertes Vision-Text-Modell (CLIP) effizient für die Erkennung chirurgischer Gesten in Videoaufnahmen feinjustiert werden. Dieses Verfahren ermöglicht eine starke Leistung bei der Erkennung bekannter und unbekannter Gesten.