核心概念
MarDiniは、マスク型自己回帰(MAR)と拡散モデル(DM)の長所を組み合わせた新しいビデオ生成モデルであり、低解像度の計画モデルと高解像度の生成モデルの非対称設計により、スケーラブルで効率的なビデオ生成を実現する。
要約
MarDini: 大規模ビデオ生成のためのマスク型自己回帰拡散モデル
本稿は、マスク型自己回帰(MAR)と拡散モデル(DM)を統合した新しいビデオ生成モデル、MarDiniに関する研究論文である。
本研究の目的は、高解像度ビデオを効率的に生成できる新しいビデオ生成モデルを開発することである。従来のビデオ生成モデルは、計算コストの高さや学習の不安定さが課題であった。本研究では、MARとDMを組み合わせることで、これらの課題を克服することを目指した。
MarDiniは、高重量なMAR計画モデルと軽量な生成DMの2つのネットワークから構成される非対称アーキテクチャを採用している。
MAR計画モデルは、低解像度の入力フレームを受け取り、対応する計画信号を予測する。計画信号は、セマンティック情報と長距離の時間情報を圧縮したものであり、DMの高解像度生成プロセスをガイドする。
DMは、マスクされた位置にノイズの多いフレームを受け取り、ノイズを徐々に除去することで再構築する。
MarDiniの学習には、段階的にタスクの難易度を上げる多段階のプログレッシブ学習戦略を採用している。
初期段階: 計画モデルと生成モデルをそれぞれ個別に学習させ、モデルの重みを初期化する。
共同モデル段階: 2つのモデルを結合し、マスクされた拡散損失のみを用いて、単純なビデオ補間タスクで共同学習させる。
共同タスク段階: 保存される参照フレーム数を徐々に減らすことで、ビデオ補間と画像からビデオへの生成タスクを共同で学習させる。