本論文では、潜在ディフュージョンモデルを用いたオーディオ編集手法を提案する。提案手法は、潜在ディフュージョンモデルのファインチューニングを行うことで、生成された編集がより入力オーディオに忠実になるようにする。
定量的および定性的な評価から、提案手法は追加、スタイル変換、インペイントの各タスクにおいて現状最高のニューラルオーディオ編集パイプラインを上回ることが示された。ユーザースタディでも、提案手法は複数のベースラインよりも高い好みを得た。また、テキストプロンプトへの忠実性と入力オーディオへの忠実性のトレードオフにおいても、提案手法が優れた結果を示した。最後に、LoRAを用いることで編集速度を大幅に改善しつつ、編集品質を維持できることを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Francesco Pa... at arxiv.org 09-25-2024
https://arxiv.org/pdf/2310.12858.pdfDeeper Inquiries