本稿では、ルーマニア語音声合成のためのFastPitchモデルの適応、話者匿名化機能の実装、および新規話者の音声複製機能の実装について述べている。
連続テキストストリームからの即時音声合成を可能にする、ストリーミング対応のゼロショット音声合成モデルを提案する。
本フレームワークは、わずかなサンプルで任意の感情を音声に埋め込むことができる。これにより、テキストの感情のみに依存せずに、多様で微細な感情を音声合成に組み込むことが可能となる。
本研究では、多レベルVAEと敵対的学習を組み合わせたモデルを提案し、テキスト・トゥ・スピーチにおけるアクセント変換の性能を向上させる。
声質変換モデルで生成した合成データを活用することで、話者間スタイル転移タスクにおける自然性と話者類似度を向上させることができる。
Blizzard 2023チャレンジの2つのタスクに対して、データクリーニング、多話者モデル、ランダム継続時間予測器、HiFiGANボコーダーなどの手法を用いて、高品質な仏語音声合成システムを開発した。
感情次元(快楽、覚醒、支配)を制御することで、感情音声合成の多様性を実現し、感情音声合成の性能を向上させる。
ウェーブレット変換を用いることで、音声拡散モデルの学習と推論の速度を倍増させつつ、同等以上の性能を維持できる。
潜在ディフュージョンモデルを用いて、入力オーディオに忠実な非剛体テキストプロンプトによるオーディオ編集を実現する。
本研究では、オーディオやテキストプロンプトから未知のタイムブルとスタイル(歌唱手法、感情、リズム、テクニック、発音など)を持つ高品質な歌声を生成することを目的としている。