本研究では、Tacotron2をベースとした条件付き変分オートエンコーダ(CVAE)を用いた音声合成フレームワークを提案している。このフレームワークにより、話者のアイデンティティを保ちつつ、任意のアクセントで音声を合成することができる。
具体的な手法は以下の通り:
実験では、L2Arcticデータセットを用いて評価を行った。客観的評価では、メルケプストラム歪み(MCD)とワード誤り率(WER)の観点で良好な結果を示した。主観的評価では、アクセント変換時の自然性が高く評価された。また、アクセントの変換精度とスピーカーアイデンティティの保持のバランスについても考察した。
全体として、提案手法は高品質なアクセント変換を実現し、アクセントを持つ音声合成の分野で有望な手法であることが示された。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jan Melechov... pada arxiv.org 10-01-2024
https://arxiv.org/pdf/2211.03316.pdfPertanyaan yang Lebih Dalam