Kernkonzepte
拡散ビジョントランスフォーマーを用いて、画像や動画のパズルピースの位置情報を生成し、欠損したピースを再構築することで、マスク付きジグソーパズルを解決する。
Zusammenfassung
本論文は、画像や動画のジグソーパズルを解決する新しい手法JPDVTを提案している。
JPDVTでは、パズルピースの視覚的特徴とその位置情報を別々に表現し、条件付き拡散モデルを用いて位置情報を生成する。これにより、欠損したピースの位置と視覚的特徴を同時に推定し、パズルを再構築することができる。
具体的には以下の通り:
パズルピースの視覚的特徴と位置情報を別々に表現する
位置情報に徐々にノイズを加える順方向拡散過程を定義する
視覚的特徴を条件として、位置情報を推定する逆拡散過程を学習する
欠損したピースの位置と視覚的特徴を同時に生成することで、マスク付きパズルを解決する
JPDVTは、ImageNet-1k、JPwLEG-3、MovingMNIST、CLEVRER、QSTなどのデータセットで、従来手法を上回る性能を示した。特に、欠損したピースがある場合でも高い精度を達成している。
Statistiken
画像パズルの正解率は68.7%で、従来手法より20.7%向上した。
動画パズルの正規化Kendallの距離は、MovingMNISTで0.7、CLEVRERで2.6、UCFで26.2、QSTで7.0と、従来手法を大幅に上回る性能を示した。