Core Concepts
大規模言語モデル(LLM)は、ビデオ観察から人間の行動を長期的に予測する上で有用な知識を持っている。提案手法AntGPTは、LLMを活用して目標推定と時間的動態のモデル化を行い、最先端の長期行動予測性能を達成する。
Abstract
本研究は、長期行動予測(LTA)タスクにおいて大規模言語モデル(LLM)の有用性を調査している。
まず、LLMを用いて目標を推定する上位ダウンアプローチと、時間的動態をモデル化する下位アップアプローチの2つのアプローチを提案している。ビデオ観察をアクション系列として表現し、LLMにインプットすることで、目標推定と時間的動態のモデル化が可能となる。
実験の結果、LLMを活用したアプローチが、Ego4D、EPIC-Kitchens-55、EGTEA GAZEなどの既存ベンチマークで最先端の性能を達成することが示された。さらに、LLMが暗黙的に目標推定を行っていることも明らかになった。
最後に、LLMの知識を小型のニューラルネットワークにディストリビューションすることで、効率的な推論が可能となることを示している。
Stats
提案手法AntGPTは、Ego4D LTA v1とv2、EPIC-Kitchens-55、EGTEA GAZE+の各ベンチマークで最先端の性能を達成した。
LLMを活用することで、目標推定と時間的動態のモデル化の両方が可能となり、大幅な性能向上が実現された。
LLMの知識を小型のニューラルネットワークにディストリビューションすることで、モデルサイズを1.3%に削減しつつ、同等以上の性能を維持できることが示された。