核心概念
提出了一个新的时间推移视频生成基准ChronoMagic-Bench,用于全面评估时间推移视频生成模型的时间连贯性和元形态变化能力。
摘要
本文提出了一个新的时间推移视频生成基准ChronoMagic-Bench。该基准包含1,649个文本提示和相应的参考视频,涵盖了生物、气象、人工制品和物理现象等4大类75个子类别的时间推移视频。与现有基准不同,ChronoMagic-Bench侧重于评估模型生成具有显著元形态变化和时间连贯性的时间推移视频的能力。
为此,作者提出了两个新的自动评估指标:元形态得分(MTScore)和连贯性得分(CHScore)。MTScore衡量视频中元形态变化的程度,CHScore评估视频的时间连贯性。这些指标与人类评判更加一致,弥补了现有指标无法准确反映时间推移视频特点的缺陷。
作者使用ChronoMagic-Bench对10种代表性的时间推移视频生成模型进行了全面评估,发现它们在处理复杂的时间推移场景时存在明显局限性。此外,作者还构建了首个大规模的时间推移视频数据集ChronoMagic-Pro,包含460,000个高质量的720P时间推移视频及其详细描述,为时间推移视频生成研究提供了有价值的资源。
统计
大多数模型无法生成具有大幅元形态变化的时间推移视频。
单帧画质可能很高,但视频序列中存在闪烁现象,表明时间连贯性较差。
基于DiT的模型在视觉质量、文本相关性和元形态变化方面总体优于基于U-Net的模型,但开源模型仍落后于闭源模型。
引用
"ChronoMagic-Bench focuses on the models' ability to generate time-lapse videos with significant metamorphic amplitude and temporal coherence."
"We develop MTScore and CHScore, which align better with human judgment than existing metrics, for assessing metamorphic attributes and temporal coherence."
"Our evaluations using ChronoMagic-Bench provide crucial insights into the strengths and weaknesses of various T2V models."