Core Concepts
WorldQAデータセットは、ビデオ理解における複雑な推論能力を評価するために設計されている。
Abstract
WorldQAデータセットは、ビデオ理解における複雑な推論能力を評価するために設計されている。このデータセットには、1007の質問-回答ペアと303本のビデオが含まれており、視覚情報と聴覚情報の両方を分析する必要があり、さらに5つのタイプの世界知識を適用する必要がある。データセットの分析によると、平均4.45ステップの推論が必要とされており、これは他のビデオQAデータセットよりも大幅に高い。
WorldRetrieverは、知識を統合して一貫した推論チェーンを形成することで、WorldQAクエリに正確に回答することを目的としたエージェントである。13の著名なLLMとLMMに対する包括的な評価の結果、WorldRetrieverは最も効果的なモデルであるものの、多肢選択問題では人間レベルの70%しか達成できていないことが明らかになった。これは、モデルの推論および理解能力のさらなる向上の必要性を示唆している。実験ではさらに、人間はフレームが増えるほど良い成績を収めるのに対し、現在のLMMは同様の条件下で成績が低下するという重要な洞察も得られた。WorldQAデータセット、その手法、およびこれらの洞察は、マルチモーダルな世界モデルの将来の発展に貢献できると期待される。
Stats
ビデオ理解には、知覚と認知の2つの重要な人間の能力が必要とされる。
ビデオ内の時計の時間や、ラジオの音声などの詳細を認識するのが知覚であり、自身の経験から得た知識を活用するのが認知である。
これらの能力を組み合わせることで、ビデオの物語を論理的なステップを踏まえて理解することができる。
Quotes
「ビデオ理解には、知覚と認知の2つの重要な人間の能力が必要とされる。」
「ビデオの物語を論理的なステップを踏まえて理解することができる。」