本研究では、テキストからビデオを生成する際の課題である大規模なテキスト-ビデオ対データの必要性と高いGPUメモリ消費を解決するため、格子状拡散モデルを提案する。本モデルは、ビデオをグリッド画像として表現することで、固定のGPUメモリ使用量でも高品質なビデオを生成できる。