最近、ビデオLLMsの興味が高まっています。しかし、既存のベンチマークはビデオLLMsの時間的認識能力について包括的なフィードバックを提供していません。この研究では、TempCompassベンチマークを提案しました。このベンチマークは多様な時間的側面とタスク形式を導入し、8つのSOTA Video LLMsと3つのImage LLMsを包括的に評価しました。結果は、Video LLMsが明らかに不十分な時間的認識能力を示すことを明らかにしました。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yuanxin Liu,... a las arxiv.org 03-04-2024
https://arxiv.org/pdf/2403.00476.pdfConsultas más profundas