核心概念
本手法は、参照フレームと線画スケッチを用いて、長期的に時間的に一貫性のある高品質なアニメーション動画を生成することを目的としている。
要約
本論文は、参照フレームを用いたラインアート動画の着色のための初めての動画ディフュージョンフレームワークを提案している。従来の手法は単一のフレームごとの着色に依存していたが、本手法は大規模に事前学習された動画ディフュージョンモデルを活用することで、より時間的に一貫性のある結果を生成できる。
具体的には以下の3つの貢献がある:
- スケッチ付きControlNetを導入し、ラインアートを条件とした動画合成を可能にした。
- Reference Attentionを提案し、大きな動きのある動画の着色を可能にした。
- Overlapped Blendingモジュールとprev-Reference Attentionを導入し、長期的な時間的一貫性のある動画生成を実現した。
実験の結果、提案手法は従来手法と比べて、フレームクオリティ、動画クオリティ、時間的一貫性の全ての指標で大幅に優れていることが示された。また、ユーザースタディでも提案手法が最も好評を得た。
統計
提案手法は従来手法と比べて、FIDが8.8423と大幅に低い
提案手法のFVDは40.2711と非常に低く、動画クオリティが高い
提案手法のLPIPSは0.0560と低く、フレームの類似性が高い
提案手法のEDMDは4.3386と低く、線画との整合性が高い
提案手法のTCは1.0784と低く、時間的一貫性が高い