Core Concepts
提案されたEM-TTSモデルは、訓練時間とモデルパラメータを大幅に削減しながら、一定の合成品質を維持します。
Abstract
最近の深層学習ベースのTTSシステムは高品質な音声合成結果を達成している。
RNNコンポーネントを含むTTSモデルのトレーニングには強力なGPU性能が必要であり、時間がかかる。
CNNベースのシーケンス合成技術はパラメータとトレーニング時間を大幅に削減し、トレーニングの経済的コストを軽減する。
EM-TTSモデルは2つの段階から構成されており、フォーノムを粗いメルスペクトログラムにエンコードし、その後完全なスペクトルを合成する。
データ拡張手法(ノイズ抑制、タイムワーピング、周波数マスキング、タイムマスキング)により、低リソースなモンゴル語問題を解決するためにロバスト性が向上している。
Stats
論文ではNCMMSC2022-MTTSC Challengeデータセットが使用されており、トレーニング時間を大幅に削減しながら一定の精度を維持している。
Quotes
"Our model can reduce the training time and parameters while ensuring the quality and naturalness of the synthesized speech compared to using mainstream TTS models."
"The experimental results show that the method does improve the training speed, which is due to the fact that no further data conversion is required between the waveform data to the spectrogram data."