Die Studie untersucht die Effektivität der Merkmalsvorhersage als eigenständiges Ziel für unüberwachtes Lernen aus Videos. Dafür wird ein Video-JEPA-Modell (Video Joint-Embedding Predictive Architecture) entwickelt, das ausschließlich auf der Vorhersage von Merkmalen basiert, ohne auf vortrainierte Bildcodierer, Text, negative Beispiele, menschliche Annotationen oder Pixelrekonstruktion zurückzugreifen.
Die Ergebnisse zeigen, dass das Lernen durch Vorhersage von Videomerkmalen zu vielseitigen visuellen Darstellungen führt, die sowohl für bewegungsbasierte als auch für erscheinungsbasierte Aufgaben gut geeignet sind, ohne dass eine Anpassung der Modellparameter erforderlich ist. Das größte Modell, ein ViT-H/16, das nur auf Videos trainiert wurde, erreicht 81,9% auf Kinetics-400, 72,2% auf Something-Something-v2 und 77,9% auf ImageNet1K.
Im Vergleich zu Pixelvorhersage-Methoden zeigen die Modelle, die mit Merkmalsvorhersage trainiert wurden, eine überlegene Leistung bei der eingefrorenen Auswertung (attentive probing) und sind bei vollständigem Fine-Tuning konkurrenzfähig, wobei sie jedoch deutlich kürzere Trainingspläne verwenden.
Darüber hinaus sind die mit Merkmalsvorhersage trainierten Modelle effizienter bei der Verwendung von Trainingsdaten. Eine Verringerung der verfügbaren Anzahl von beschrifteten Beispielen führt zu einem größeren Leistungsvorsprung von V-JEPA gegenüber Pixelrekonstruktionsmodellen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Adrien Barde... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08471.pdfDeeper Inquiries