最近、ビデオLLMsの興味が高まっています。しかし、既存のベンチマークはビデオLLMsの時間的認識能力について包括的なフィードバックを提供していません。この研究では、TempCompassベンチマークを提案しました。このベンチマークは多様な時間的側面とタスク形式を導入し、8つのSOTA Video LLMsと3つのImage LLMsを包括的に評価しました。結果は、Video LLMsが明らかに不十分な時間的認識能力を示すことを明らかにしました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuanxin Liu,... at arxiv.org 03-04-2024
https://arxiv.org/pdf/2403.00476.pdfDeeper Inquiries