מושגי ליבה
本稿では、インドネシア語の音声合成における最新の進歩として、大規模な音声データセット「Bahasa Harmony」と、効率的かつ高品質な音声合成を実現する新しいTTSモデル「EnGen-TTS」を紹介する。
תקציר
Bahasa Harmony: EnGen-TTSを用いた音声合成のための包括的な音声データセット
書誌情報: Susladkar, O. K., Tripathi, V., & Ahmed, B. (2024). Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS. arXiv preprint arXiv:2410.06608v1.
研究目的: インドネシア語の音声合成における、既存システムの限界を克服するため、包括的な音声データセットと、高品質かつ効率的な音声合成を実現する新しいTTSモデルを提案する。
方法:
データセット: インドネシア語の多様な言語的特徴を捉えるため、Wikipediaやchat-GPT翻訳などのテキストソースから収集した約55時間分の音声データと52,000件の音声録音を含む「Bahasa Harmony」データセットを構築した。
モデル: マルチリンガルのT5エンコーダと、音声コーデック言語モデリングモジュールを組み合わせた新しいTTSモデル「EnGen-TTS」を開発した。このモデルは、音声の離散表現を用いることで、効率的な学習と高品質な音声合成を両立させている。
主な結果:
提案する「Bahasa Harmony」データセットは、インドネシア語の音声合成研究のための貴重なリソースとなる。
提案する「EnGen-TTS」モデルは、既存のTTSモデルと比較して、より自然で高品質なインドネシア語の音声を合成できることを、平均オピニオン評点(MOS)を用いた評価実験により確認した。
「EnGen-TTS」モデルは、リアルタイム音声合成にも適した処理速度を達成している。
結論:
本研究で提案するデータセットとモデルは、インドネシア語の音声合成技術を大幅に進歩させるものである。
本研究の成果は、多言語音声合成システムの開発にも貢献する可能性がある。
今後の研究:
8kHzサンプリングレートでの高品質な音声生成を可能にすることで、電話音声合成などのアプリケーションへの対応を進める。
より長い文や段落を自然かつ滑らかに合成するため、コンテキストウィンドウを2048音声トークンまで拡張する。
סטטיסטיקה
データセット「Bahasa Harmony」は、約55時間分の音声データと52,000件の音声録音を含む。
データセットは、男性と女性の声優からそれぞれ25時間ずつ収集された。
すべての音声データは48kHzのサンプルレートで録音されている。
データセットには、23,000語の語彙が含まれている。
EnGen-TTS-Lモデルは、4.45 ± 0.13のMOSを達成した。
EnGen-TTS-Lモデルのリアルタイム係数(RTF)は0.016である。
EnGen-TTS-Lモデルは、最大604の音声トークンと1024のテキストトークンを処理できる。
600の音声トークンは約16秒の音声に相当する。