核心概念
潜在ディフュージョンモデルを用いて、入力オーディオに忠実な非剛体テキストプロンプトによるオーディオ編集を実現する。
摘要
本論文では、潜在ディフュージョンモデルを用いたオーディオ編集手法を提案する。提案手法は、潜在ディフュージョンモデルのファインチューニングを行うことで、生成された編集がより入力オーディオに忠実になるようにする。
定量的および定性的な評価から、提案手法は追加、スタイル変換、インペイントの各タスクにおいて現状最高のニューラルオーディオ編集パイプラインを上回ることが示された。ユーザースタディでも、提案手法は複数のベースラインよりも高い好みを得た。また、テキストプロンプトへの忠実性と入力オーディオへの忠実性のトレードオフにおいても、提案手法が優れた結果を示した。最後に、LoRAを用いることで編集速度を大幅に改善しつつ、編集品質を維持できることを示した。
统计
提案手法は、追加、スタイル変換、インペイントのタスクにおいて、現状最高のニューラルオーディオ編集パイプラインを上回る性能を示した。
ユーザースタディの結果、提案手法は複数のベースラインよりも高い好みを得た。
提案手法は、テキストプロンプトへの忠実性と入力オーディオへの忠実性のトレードオフにおいて優れた結果を示した。
LoRAを用いることで、編集速度を大幅に改善しつつ、編集品質を維持できることが示された。
引用
"提案手法は、追加、スタイル変換、インペイントのタスクにおいて、現状最高のニューラルオーディオ編集パイプラインを上回る性能を示した。"
"ユーザースタディの結果、提案手法は複数のベースラインよりも高い好みを得た。"
"提案手法は、テキストプロンプトへの忠実性と入力オーディオへの忠実性のトレードオフにおいて優れた結果を示した。"
"LoRAを用いることで、編集速度を大幅に改善しつつ、編集品質を維持できることが示された。"