Core Concepts
自動回帰型ディフュージョンモデルを用いて、任意の数の関連性のある画像を生成することができる。
Abstract
本論文は、任意の数の関連性のある画像を自動回帰的に生成できる汎用的なフレームワークを提案している。
大規模な合成多画像データセットMISを構築し、様々な意味的関係を持つ画像セットを含んでいる。
提案するMany-to-many Diffusion (M2M)モデルは、前の画像の特徴を捉えて新しい画像を生成することができる。
M2M-SelfとM2M-Dinoの2つのモデル変種を提案しており、前の画像の特徴をそれぞれ異なる方法で活用している。
合成データのみで事前学習した後、特定のタスクに対してファインチューニングすることで、ノベルビューシンセシスや視覚的手順生成などのタスクに適応できることを示している。
定量的評価では、生成画像の質や前の画像との整合性が高いことを確認している。
人物の顔の生成や長期的な生成の質の低下など、いくつかの課題も残されている。
Stats
提案手法M2Mは、合成データセットMISを用いて事前学習を行い、その後ファインチューニングすることで、ノベルビューシンセシスや視覚的手順生成などのタスクに適応できる。
MISデータセットは、12Mの合成多画像サンプルから構成され、各サンプルは25枚の関連性のある画像で構成されている。