Core Concepts
限られたデータ環境下においても、統語的および音響的特徴を統合的に活用することで、韓国語TTS音声の自然さを大幅に向上させることができる。
Abstract
本研究では、韓国語TTS音声の自然さ向上を目的として、統語的および音響的特徴を統合的に活用する新しいフレームワークを提案している。
具体的には以下の取り組みを行っている:
統語的特徴の抽出: 局所的な文脈情報と大域的な構文情報を組み合わせることで、より正確な文節境界の予測を実現している。
音響的特徴の抽出: 音声データから抽出した潜在的な音響特徴を、テキスト側のエンコーダが予測するアプローチを採用している。これにより、音声データを参照することなく自然な韓国語TTS音声を生成できる。
統語的および音響的特徴の統合: 上記2つの特徴を統合的に活用することで、短文から長文まで幅広い文長に対して高品質な韓国語TTS音声を生成できることを示している。
評価実験の結果、提案手法は従来手法と比べて、特に長文の合成音質と合成ロバスト性において大幅な性能向上を達成している。これは、限られたデータ環境下においても、統語的および音響的特徴を効果的に活用できることを示唆している。
Stats
提案手法のMOS-Sは3.467±0.08、MOS-Lは3.767±0.07と、従来手法を大きく上回る。
提案手法のWER-Sは0.12429、WER-Lは0.14689と、従来手法よりも低い。
統語的特徴と音響的特徴を統合した場合に最も高い評価を得た。
Quotes
"統語的および音響的特徴を統合的に活用することで、限られたデータ環境下においても高品質な韓国語TTS音声を生成できる。"
"提案手法は特に長文の合成音質と合成ロバスト性において大幅な性能向上を達成している。"