المفاهيم الأساسية
LAVIMO ist ein neuartiges Framework für drei-Modalitäten-Lernen, das eine gemeinsame Einbettung für Text, Video und Bewegung schafft.
الإحصائيات
Unsere Ergebnisse auf den HumanML3D- und KIT-ML-Datensätzen zeigen, dass LAVIMO Spitzenleistungen in verschiedenen Bewegungs-bezogenen, cross-modalen Abrufaufgaben erreicht.