本論文では、音声付き動画の生成のための簡単だが強力なベースラインを提案している。既存の音声と動画の拡散モデルを基に、追加のモジュールを統合し、単一のモデルで音声と動画を同時に生成できるようにしている。
アラインメントを向上させるために、2つの新しいメカニズムを導入している。1つ目は時系列調整で、各モダリティに異なる時系列情報を提供することで、時系列に沿った生成プロセスの整合性を高めている。2つ目は、クロスモーダル条件付けを時間的位置情報のように扱うCMC-PEと呼ばれる新しい設計で、時間的整合性の向上に寄与している。
実験結果から、提案手法は既存手法と比べて、動画品質、音声品質、クロスモーダルアラインメントの全てにおいて優れた性能を示すことが確認された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania