Vorhersage langfristiger Handlungen in Videos durch Nutzung großer Sprachmodelle
Große Sprachmodelle können das Verständnis der zeitlichen Dynamik menschlicher Aktivitäten und die Ableitung von Zielen verbessern, um die Vorhersage langfristiger Handlungen in Videos zu ermöglichen.