Umfassende Evaluierung und Leistungsanalyse großer Videoerstellungsmodelle
Wir stellen einen neuartigen Rahmen und eine Pipeline zur umfassenden Evaluierung der Leistung von generierten Videos vor. Unser Ansatz umfasst die Erstellung einer vielfältigen und umfassenden Liste von 700 Eingabeaufforderungen für die Text-zu-Video-Generierung, die auf einer Analyse von Echtweltnutzerdaten basiert und mit Hilfe eines großen Sprachmodells erstellt wird. Dann bewerten wir die neuesten Videoerstellungsmodelle auf unserem sorgfältig gestalteten Benchmark in Bezug auf Bildqualität, Inhaltsqualität, Bewegungsqualität und Text-Video-Ausrichtung mit 17 sorgfältig ausgewählten objektiven Metriken. Um die endgültige Rangliste der Modelle zu erhalten, passen wir eine Reihe von Koeffizienten an, um die objektiven Metriken an die Meinungen der Nutzer anzupassen.