Ein leistungsfähiges Sprachmodell für die Videogenerierung ohne Vorgaben
VideoPoet ist ein Modell zur Synthese hochqualitativer Videos aus einer Vielzahl von Eingangssignalen. Es verwendet eine Decoder-only-Transformer-Architektur, die multimodale Eingaben wie Bilder, Videos, Text und Audio verarbeitet. Das Trainingsprotokoll folgt dem von Großen Sprachmodellen (LLMs), bestehend aus zwei Stufen: Vortraining und aufgabenspezifische Anpassung. Das vortrainierte LLM dient als Grundlage, die an eine Reihe von Videogenerierungsaufgaben angepasst wird. Die Ergebnisse zeigen die wettbewerbsfähigen und state-of-the-art-Fähigkeiten des Modells, insbesondere bei der Erzeugung realistischer und interessanter Videos mit Bewegung.