Core Concepts
ビデオ理解モデルは、複雑な現実世界のシナリオにおいて推論能力と堅牢性に課題がある。
Abstract
本研究では、ビデオ理解モデル(Video-LMM)の推論能力と堅牢性を包括的に評価するための新しいベンチマーク「CVRR-ES」を提案している。CVRR-ESは11の異なる現実世界のビデオ評価カテゴリから構成され、ビデオ理解モデルの性能を多角的に評価する。
評価の結果、ほとんどのビデオ理解モデル、特にオープンソースのモデルが、複雑なビデオの理解と堅牢性の面で課題を抱えていることが明らかになった。例えば、最先端のVideo-LLaVAモデルは11の評価カテゴリの平均で15.92%の精度しか達成できていない。一方、クローズドソースのモデルであるGPT4V(vision)とGemini-Proは比較的高い性能を示したが、依然として人間の水準には及ばない。
本研究では、ビデオ理解モデルの推論能力と堅牢性を向上させるための新しい2段階のコンテキスト付きプロンプティング手法(DSCP)も提案している。DSCPを適用することで、ほとんどのビデオ理解モデルの性能が大幅に改善された。
これらの知見は、次世代の人間中心のAIシステムを構築する上で重要な洞察を提供している。ビデオ理解モデルの推論能力と堅牢性を高めることで、実世界での信頼性の高い人間-AI インタラクションが実現できるようになる。
Stats
複数の行動が1つのビデオに含まれる割合は13.25%
細かい行動理解が必要な割合は9.58%
部分的な行動が含まれる割合は8.58%
存在しない行動と存在するシーンの組み合わせが5.75%
視覚的コンテキストの解釈が必要な割合は11.38%
時間的順序の理解が必要な割合は6.33%
異常で物理的に不自然な行動が7.92%
社会的コンテキストの解釈が必要な割合は11.67%
感情的コンテキストの理解が必要な割合は12.17%