本研究は、長期行動予測(LTA)タスクにおいて大規模言語モデル(LLM)の有用性を調査している。
まず、LLMを用いて目標を推定する上位ダウンアプローチと、時間的動態をモデル化する下位アップアプローチの2つのアプローチを提案している。ビデオ観察をアクション系列として表現し、LLMにインプットすることで、目標推定と時間的動態のモデル化が可能となる。
実験の結果、LLMを活用したアプローチが、Ego4D、EPIC-Kitchens-55、EGTEA GAZEなどの既存ベンチマークで最先端の性能を達成することが示された。さらに、LLMが暗黙的に目標推定を行っていることも明らかになった。
最後に、LLMの知識を小型のニューラルネットワークにディストリビューションすることで、効率的な推論が可能となることを示している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Qi Zhao,Shij... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2307.16368.pdfPerguntas Mais Profundas