Core Concepts
대규모 언어 모델(LLM)은 비디오 관찰로부터 행동의 시간적 역학과 행위자의 목표를 모델링하여 장기 행동 예측 성능을 향상시킬 수 있다.
Abstract
이 논문은 장기 행동 예측(LTA) 작업에서 대규모 언어 모델(LLM)의 활용 가능성을 탐구한다. LTA 작업은 비디오 관찰로부터 동작 및 명사 시퀀스를 예측하는 것으로, 인간-기계 상호작용에 중요하다.
논문은 LTA를 두 가지 관점에서 접근한다:
하향식(top-down) 접근: 행위자의 목표를 추론하고 이를 바탕으로 필요한 절차를 계획한다.
상향식(bottom-up) 접근: 시간적 역학을 직접 모델링하여 미래 행동을 자동 회귀적으로 예측한다.
논문은 LLM이 이 두 가지 접근법 모두에 도움이 될 수 있다고 가정한다. LLM은 절차 텍스트 데이터(레시피, 방법 등)로 사전 학습되어 가능한 다음 행동에 대한 사전 지식과 관찰된 절차로부터 목표를 추론할 수 있다.
제안하는 AntGPT 프레임워크는 비디오 관찰을 인간 행동 시퀀스로 표현하고, LLM을 활용하여 목표 추론과 시간적 역학 모델링을 수행한다. AntGPT는 Ego4D LTA v1, v2, EPIC-Kitchens-55, EGTEA GAZE+에서 최신 성능을 달성한다. 또한 LLM의 지식을 매우 작은 신경망으로 증류할 수 있음을 보인다.
Stats
비디오 관찰로부터 인간 행동 시퀀스를 추출하여 LLM의 입력으로 사용한다.
LLM은 이 행동 시퀀스로부터 행위자의 목표를 추론하고, 시간적 역학을 모델링한다.