Grunnleggende konsepter
音声を使用して静止画像を動的なアニメーションに変換するための新しい手法であるAVSyncDモデルが、高品質なデータセットAVSync15を使用して、視覚的な品質と同期性を向上させることができることを示しました。
Sammendrag
現在の視覚生成方法は、テキストによって誘導された高品質なビデオを生成できますが、オブジェクトのダイナミクスを効果的に制御することは依然として課題です。本研究では、静止画像から動きのダイナミクスを示す動画を生成するタスクであるAudio-Synchronized Visual Animation(ASVA)に焦点を当てました。AVSync15データセットから構築された高品質なデータセットは、音声とオブジェクトの動きが時系列的に密接に関連付けられていることを確認しました。AVSyncDモデルは、音声ガイダンスを活用して視覚的品質だけでなく同期性も向上させることができます。
Statistikk
AVSync15は15の動的サウンドクラスから成り立つ。
AVSyncDモデルはη=1からη=8までの異なるオーディオガイダンスファクターによって評価された。
音声ガイダンスはFID、IA、FVD指標全体に影響します。
Sitater
"Most existing works on audio-to-visual generation are however either limited to semantic control or constrained on singular scenarios."
"We introduce Audio-Synchronized Visual Animation, ASVA, a task which aims to animate objects depicted in natural static images into a video."
"Our proposed model, AVSyncD, uses frozen segmented audio features from ImageBind for enhanced audio guidance and motion generation."