本研究は、ピッチアクセントを持つ言語において、学習済みの話者の声を非母語方言で合成するクロスダイアレクトテキスト・トゥ・スピーチ(CD-TTS)タスクを探索している。提案モデルは3つのサブモジュールから構成される:1) バックボーンTTSモデル、2) リファレンスエンコーダ、3) アクセント潜在変数(ALV)予測器。
リファレンスエンコーダは、音声のプロソディ特徴からALVを抽出する。ALV予測器は、入力テキストから方言に適応したALVを予測する。ALV予測器には、提案の多方言フォニームレベルBERT(MD-PL-BERT)が組み込まれており、方言間の共通点と相違点を学習することで、各方言に適したALV予測を実現する。
実験では、大阪方言のTTSタスクを通して提案モデルの有効性を検証した。結果、提案モデルはクロスダイアレクトTTSにおいて、合成音声の方言らしさを向上させることが示された。また、話者の異なるリファレンス音声を入力することで、合成音声のピッチアクセントを任意の話者のものに適応できることも確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kazuki Yamau... at arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07265.pdfDeeper Inquiries