本文提出了Q-Bench-Video,这是一个专门设计用于评估LMM视频质量理解能力的新基准。该基准包含了多种类型的视频素材,如自然场景、AI生成内容(AIGC)和计算机图形(CG)视频,确保了视频源的多样性。为了实现视频质量分布的平衡,作者采用了均匀采样的方法。
Q-Bench-Video采用了三种类型的问题:是非题、选择题和开放式问题,涵盖了技术、美学、时间和AIGC等多个视频质量维度。此外,还引入了视频对比较任务,以增强评估的全面性。
通过对12个开源和5个专有LMM模型的测试,结果显示LMM在视频质量理解方面仍存在明显不足,与人类水平相比存在较大差距,尤其在处理开放式问题和AIGC相关失真方面。这突出了LMM在视频质量感知方面的局限性,需要进一步提升。
Q-Bench-Video的提出旨在激发社区的研究兴趣,推动LMM在视频质量理解方面的进步,缩小与人类水平的差距。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問