Erweiterung eines videobasierten Großsprachmodells für das Verständnis von langen Videos
Unser Ansatz Koala erweitert vortrainierte videobasierte Großsprachmodelle, um lange Videos besser zu verstehen, indem er lernbare räumlich-zeitliche Abfragen verwendet, um den globalen Kontext des Videos mit feingranularen Informationen auf Segmentebene zu verbinden.