Core Concepts
LLMを利用して動的なシーンレイアウトを生成し、それを基に動画生成モデルを制御することで、複雑な入力テキストに整合した動画を生成する。
Abstract
本研究では、LLMを利用して動的なシーンレイアウト(DSL)を生成し、それを基に動画生成モデルを制御する手法「LLM-grounded Video Diffusion (LVD)」を提案している。
まず、LLMを用いて入力テキストに基づいた動的なシーンレイアウトを生成する。LLMは、重力、弾性、遠近法といった物理的性質を理解し、それに基づいて適切なレイアウトを生成することができる。
次に、生成したDSLを用いて、既存の動画生成モデルを制御する。具体的には、DSLの情報を用いて、生成される動画の物体の位置や動きが入力テキストと整合するよう調整する。
この2段階のアプローチにより、LVDは既存の動画生成モデルよりも入力テキストとの整合性が高い動画を生成できることが示されている。また、LLMとDSLを利用することで、複雑な時空間的な動きを伴う入力テキストに対しても適切に対応できる。
本手法は、パラメータ更新を必要とせず、既存の動画生成モデルに簡単に組み込めるため、実用的な応用が期待できる。今後は、より高度なDSL制御手法の開発や、生成動画の質の向上などが課題として考えられる。
Stats
入力テキストに基づいて生成したDSLの正解率は、GPT-3.5で77%、GPT-4で98%に達した。
生成動画の評価では、LVDがベースラインモデルよりも大幅に優れた性能を示した。
Quotes
"LLMsは、テキストのみから複雑な時空間的ダイナミクスを理解し、それに整合したレイアウトを生成することができる。"
"LVDは、既存の動画生成モデルに簡単に組み込めるため、実用的な応用が期待できる。"