本研究は、テキスト・トゥ・スピーチ(TTS)システムにおけるアクセント変換の課題に取り組んでいる。グローバル化が進む中、多様なアクセントを持つ人々に対応できるインクルーシブなスピーチ技術の必要性が高まっている。
提案手法では、多レベルVAE(MLVAE)アーキテクチャをベースとし、スピーカー特徴とアクセント情報を分離するために敵対的学習を導入している。具体的には、アクセント分類器を用いてスピーカー埋め込みからアクセント情報を除去することで、アクセント変換能力の向上を図っている。
実験では、L2Arctic and CMUArctic データセットを使用し、客観的評価と主観的評価を行っている。結果、提案手法であるMLVAE-ADVは、メル周波数ケプストラム歪み(MCD)の改善と、アクセント類似性の向上を示した。一方で、単語誤り率(WER)とスピーカー類似性の低下が見られた。これは、アクセントとスピーカーアイデンティティの間のトレードオフが存在することを示唆している。
今後の課題として、より大規模なデータセットの活用や、アクセント変換とスピーカーアイデンティティの保持のバランスを取るための手法の検討が挙げられる。本研究は、インクルーシブなスピーチ合成技術の発展に向けた新たな方向性を提示している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania