本研究では、SonicDiffusionと呼ばれる新しい手法を提案している。SonicDiffusionは、事前学習済みのディフュージョンモデルを拡張し、音声入力を利用して画像の生成と編集を行うことができる。
まず、音声特徴量を画像特徴量と整合性のとれた表現に変換するための「Audio Projector」モジュールを導入している。このモジュールは、音声入力から特徴量を抽出し、ディフュージョンモデルの条件入力として利用できる形式に変換する。
次に、ディフュージョンモデルの既存の構造に新たな「Gated Cross-Attention」層を追加することで、音声特徴量と画像特徴量の相互作用を実現している。これにより、音声入力に応じて画像の生成プロセスを制御することができる。
さらに、この手法は既存の画像編集手法と組み合わせることで、音声に基づいた画像の編集も可能となる。具体的には、入力画像の特徴量を抽出し、音声特徴量と組み合わせることで、音声に合わせた画像の変更を行うことができる。
提案手法は、ランドスケープ、物質特性、感情表現など、様々なデータセットで評価されており、既存手法と比較して優れた性能を示している。特に、生成画像の品質とセマンティックな整合性の両面で優れた結果が得られている。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы