ImmerseDiffusionは、テキストによる指示と空間情報を組み合わせることで、3次元的な没入型音響を生成する、初の空間音声生成モデルである。
本稿では、従来の空間音声生成における課題を解決するため、音声カテゴリと音源の空間位置を入力として、一次アンビソニックス(FOA)を直接生成するエンドツーエンドの深層学習モデル「Diff-SAGe」を提案する。
本稿では、テキストや画像から空間的な位置情報に忠実なステレオ音声を生成する、言語駆動型空間音声生成という新しいタスクと、そのためのデータセットBEWO-1M、そして生成モデルSpatialSonicを提案する。