แนวคิดหลัก
本稿では、音声合成における線形予測(LP)の計算を高速化し、より自然な音声を実現するための新しい微分可能な時変LP技術を提案しています。
บทคัดย่อ
論文情報
Yu, C.-Y., & Fazekas, G. (2024). Differentiable Time-Varying Linear Prediction in the Context of End-to-End Analysis-by-Synthesis. arXiv preprint arXiv:2406.05128v3.
研究目的
本研究は、深層学習フレームワークにおける音声合成のための線形予測(LP)演算子のエンドツーエンドの学習が、その再帰的な定式化のために遅いという問題に対処することを目的としています。
手法
本稿では、GOLFボコーダーの高効率な時不変LP実装を時変ケースに一般化することで、この問題を解決する新しい微分可能な時変LP技術を提案しています。
具体的には、時間変化する無限インパルス応答(IIR)を用いたフィルタリングとしてサンプルごとのLPフィルタを表現し、誤差逆伝播法を用いて効率的に勾配を計算する手法を導出しています。
提案手法を評価するために、分析合成実験を行い、提案手法と既存手法の性能を比較しています。
結果
評価の結果、提案手法は、従来のフレーム単位の近似手法と比較して、より滑らかで自然なLPCを学習できることが示されました。
また、主観評価実験の結果、提案手法を用いた音声合成システムは、従来のシステムと比較して、より高品質な音声を合成できることが確認されました。
結論
本稿で提案された微分可能な時変LP技術は、エンドツーエンドの音声合成システムの学習を高速化し、より自然で高品質な音声を合成することを可能にするものです。
意義
本研究は、深層学習ベースの音声合成システムにおけるLPの効率的な学習方法を提供することで、より自然で表現力豊かな音声合成技術の発展に貢献するものです。
限界と今後の研究
本研究では、単一話者データセットを用いて評価を行いましたが、今後、多様な話者や言語に対応するために、大規模なデータセットを用いた評価が必要となります。
また、提案手法は、計算コストが比較的高いため、より高速な実装方法の検討も今後の課題として挙げられます。
สถิติ
本稿では、VCTKデータセットのmic1録音を使用し、トレーニングと評価を行いました。
テストセットとして、最後から8人の話者(p225〜p241)を選択し、バリデーションには残りの話者を使用しました。
すべての録音は24kHzにダウンサンプリングされました。
トレーニングとバリデーションデータは、2秒間の重複セグメントに分割されました。
バッチサイズは64で、学習率0.0001のAdamオプティマイザを使用して、すべてのエンコーダーを100万ステップ学習させました。
各ステップで勾配のノルムを0.5にクリップした結果、GOLFの学習が安定し、すべての評価モデルの収束が改善されました。
FFTサイズを[509, 1021, 2053]とした、[8]と同じマルチ解像度スペクトル(MSS)損失を使用しました。
評価には、バリデーション損失が最も低いチェックポイントを使用しました。
GOLF-ss、NHV、∇WORLD(それぞれGOLFs/HpN/SFの最良モデル)を選択し、MUSHRAリスニングテストを実施しました。
テストセットから、平均FADスコアが最も低いp360(男性)とp361(女性)を選択しました。
10個の発話を選択し、それぞれの話者にランダムに5つずつ割り当てました。
音声の長さは5〜7秒でした。
各テストサンプルは、選択したモデルによって再合成された音声と、同じ発話を使用した低アンカーモデルで構成されています。
低アンカーは、従来のLPC分析を用いたパルス列です。
グランドトゥルース録音は、隠れた参照として含まれています。
คำพูด
"This paper proposes a new differentiable vocoder based on the GOLF vocoder [8]."
"We extend their custom backpropagation method to work with time-varying LP, removing mismatches between training and evaluation conditions with the cost of slightly slower training speed than frame-wise approximation."
"We conducted an end-to-end analysis-by-synthesis experiment and compared the performance of several differentiable components with two classic synthesiser formulations."