Verbesserung von Video-Transformatoren für das Verständnis von Aktionen durch VLM-unterstütztes Training
Durch die Kombination der Stärken von Vision Transformers (ViTs) und Visual Language Models (VLMs) kann die Leistung bei der Aktion-Erkennung in Videos deutlich verbessert werden.