提案手法は、ビデオ入力から視線情報を活用してグラフを構築し、そのグラフニューラルネットワークを用いて人間の意図を認識し、その意図を達成するための残りのアクションを予測する。
大規模言語モデル(LLM)は、ビデオ観察から人間の行動を長期的に予測する上で有用な知識を持っている。提案手法AntGPTは、LLMを活用して目標推定と時間的動態のモデル化を行い、最先端の長期行動予測性能を達成する。