Die Autoren stellen eine neue Metrik namens STREAM vor, die es ermöglicht, die räumlichen und zeitlichen Aspekte von Videos separat zu bewerten. Im Gegensatz zu bestehenden Metriken wie FVD und VIS, die nur einen Gesamtscore liefern, bietet STREAM eine detailliertere Analyse, indem es die Realitätstreue (STREAM-F), Diversität (STREAM-D) und zeitliche Konsistenz (STREAM-T) unabhängig voneinander bewertet.
STREAM-T erfasst die zeitliche Konsistenz, indem es die Schiefe der Amplitudenverteilung der Fouriertransformation der Videoeigenschaften über die Zeit analysiert und deren Korrelation zwischen echten und generierten Videos berechnet. STREAM-S bewertet die räumliche Qualität, indem es die Präzision und den Recall der Videoinhalte misst.
Die Autoren zeigen anhand von Experimenten mit synthetischen und realen Datensätzen, dass STREAM in der Lage ist, die Stärken und Schwächen von Videogenerierungsmodellen präziser zu erfassen als bisherige Metriken. Insbesondere bei der Bewertung von längeren Videos, die über die Beschränkungen bestehender Metriken hinausgehen, erweist sich STREAM als effektiv.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Pum Jun Kim,... في arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.09669.pdfاستفسارات أعمق