Centrala begrepp
SOTA Video LLMsは時間的知覚能力に不足があり、現在のモデルは改善が必要です。
Sammanfattning
最近、ビデオLLMsの興味が高まっています。しかし、既存のベンチマークはビデオLLMsの時間的認識能力について包括的なフィードバックを提供していません。この研究では、TempCompassベンチマークを提案しました。このベンチマークは多様な時間的側面とタスク形式を導入し、8つのSOTA Video LLMsと3つのImage LLMsを包括的に評価しました。結果は、Video LLMsが明らかに不十分な時間的認識能力を示すことを明らかにしました。
Statistik
7,540個のタスク命令を収集
410本のビデオと500個のメタ情報を収集
11種類のMLLMs(8つのVideo LLMsおよび3つのImage LLMs)を評価
Citat
"Existing MLLMs exhibit poor temporal perception ability."
"MLLMs demonstrate their highest proficiency in Action aspect."
"All Video LLMs struggle to consistently surpass SPHINX-v2 and Qwen-VL-Chat, two Image LLMs."