現在の視覚生成方法は、テキストによって誘導された高品質なビデオを生成できますが、オブジェクトのダイナミクスを効果的に制御することは依然として課題です。本研究では、静止画像から動きのダイナミクスを示す動画を生成するタスクであるAudio-Synchronized Visual Animation(ASVA)に焦点を当てました。AVSync15データセットから構築された高品質なデータセットは、音声とオブジェクトの動きが時系列的に密接に関連付けられていることを確認しました。AVSyncDモデルは、音声ガイダンスを活用して視覚的品質だけでなく同期性も向上させることができます。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Lin Zhang,Sh... alle arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.05659.pdfDomande più approfondite