大規模言語モデルは時間的学習に効果的である
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示しており、ビデオLLMの研究に向けて人工知能とのインタラクションをビデオレベルで促進することが期待されている。しかし、ビデオベースのダイアログシステムにおいて、ビデオの効果的なエンコーディングと理解をどのように実現するかは未解決の課題である。本論文では、LLMの堅牢な系列モデリング能力を活用し、ビデオの時空間トークンをLLMに直接入力することで、ビデオの時空間モデリングをLLMに委ねるというシンプルながら未探索の手法を提案する。