Core Concepts
CAGEは、未監督学習によるビデオ生成を通じてシーンの構成とアニメーションを制御可能な方法を提案する。
Abstract
CAGEは未監督学習に基づく新しい方法であり、DINOv2空間トークンを使用してシーンの構成とオブジェクトのアニメーションを制御する。
モデルは異なる画像から特徴を選択して一意のシーンを構築し、オブジェクトの動きも指定できる。
様々な設定でCAGEの能力と制御性を実証するために実験が行われた。
Stats
CAGEはDINOv2空間トークンを使用しています。
モデルは100kイテレーションで64サンプルのバッチサイズで訓練されました。
Quotes
"CAGEは未監督学習によるビデオ生成モデルです。"
"DINOv2特徴量を活用することで、モデルは過学習せず、ゼロショット転送も可能です。"