本稿では、事前学習済みの音声コーデックモデルのフレームレートを階層的に削減することで、長時間の音声合成を可能にする新しい手法、MReQとHALL-Eを提案する。
本稿では、インドネシア語の音声合成における最新の進歩として、大規模な音声データセット「Bahasa Harmony」と、効率的かつ高品質な音声合成を実現する新しいTTSモデル「EnGen-TTS」を紹介する。
本稿では、拡散確率モデルに基づく音声波形生成モデルであるDiffWaveを用いて、高忠実度かつ多様な乳児の泣き声を無条件生成できることを示す。
インドの言語の多様性に着目し、共通ラベルセット(CLS)と音声合成技術を用いて、リソースの少ない言語のゼロショット音声合成と、自然なコードスイッチングを含む音声合成を実現する手法を提案する。
DMDSpeechは、直接指標最適化を用いることで、従来の最先端モデルよりも高速かつ高品質なゼロショット音声合成を実現する、蒸留拡散ベースの新しい音声合成モデルである。
DurIAN-E 2は、表現力豊かで高忠実度の音声合成を実現する、持続時間情報に基づく注意機構、適応型変分オートエンコーダ、敵対的学習を用いた音声合成モデルである。
本稿では、RGB画像に加えて深度画像、話者位置、環境意味論などのマルチソース空間データを用いることで、より没入感のある環境に合わせた残響音声の生成を可能にする、MS2KU-VTTSと呼ばれる新しいマルチソース空間知識理解スキームを提案する。
本稿では、音声合成における線形予測(LP)の計算を高速化し、より自然な音声を実現するための新しい微分可能な時変LP技術を提案しています。
連続表現を用いたトークン単位潜在拡散モデルを用いることで、従来の離散表現を用いた音声合成モデルに匹敵、あるいは凌駕する品質の音声合成が可能になる。
従来の離散音声トークナイザを用いた音声合成は情報損失を引き起こすため、本稿では、より高い情報保持率とサンプリングレートへのロバスト性を備えた連続音声トークナイザを用いた音声合成モデルを提案する。