Der Artikel stellt einen neuartigen Ansatz für die Nullschuss-Videofragebeantwortung vor, bei dem ein Bildgitter verwendet wird, um mehrere Videoframes in einem einzigen Bild darzustellen. Dieser Ansatz ermöglicht es, ein leistungsfähiges VLM direkt auf das Bildgitter anzuwenden, ohne dass eine spezielle Videotrainierung erforderlich ist.
Der Kern des Ansatzes ist die Erkenntnis, dass ein Video aus einer Reihe von Bildern oder Frames besteht, die mit zeitlichen Informationen verwoben sind. Um diese zeitlichen Aspekte zusammen mit den räumlichen Details jedes Einzelbildes effektiv zu verwalten, wird das Video in ein Bildgitter umgewandelt. Dieses Bildgritformat behält die Erscheinung eines einzelnen Bildes bei, bewahrt aber die zeitlichen Informationen innerhalb der Gitterstruktur.
Die umfangreichen experimentellen Analysen über zehn Nullschuss-Videofragebeantwortungs-Benchmarks zeigen, dass der vorgeschlagene Ansatz, der als Image Grid Vision Language Model (IG-VLM) bezeichnet wird, in neun von zehn Benchmarks die bestehenden Methoden übertrifft. Dabei werden sowohl offene als auch Multiple-Choice-Benchmarks abgedeckt.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Wonkyun Kim,... klokken arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18406.pdfDypere Spørsmål