核心概念
Video LLMs exhibit poor temporal perception ability, as revealed by the TempCompass benchmark.
統計
대부분의 Video LLMs는 시간적 지각 능력이 부족하다.
TempCompass는 다양한 시간적 측면과 작업 형식을 소개한다.
8개의 Video LLMs와 3개의 Image LLMs를 종합적으로 평가한다.
引用
"Do Video LLMs really understand the temporal dynamics of videos?" - Existing benchmarks fail to provide a satisfactory answer.
"Our data reveals the weak temporal perception ability of SOTA Video LLMs."