核心概念
X-LANCE研究グループは、Interspeech 2024の離散音声ユニットを用いた音声処理チャレンジにおいて、テキスト音声変換、歌声合成、音声認識の各トラックで高性能なシステムを開発した。特に、テキスト音声変換トラックでは、低ビットレートかつ高品質な合成音声を実現し、リーダーボードで1位を獲得した。
要約
本論文では、X-LANCE研究グループが開発した離散音声ユニットを活用した音声処理システムについて説明する。
テキスト音声変換トラックでは、FunCodecとVQTTSモデルを組み合わせたシステムを提案した。FunCodecは25Hzの低フレームレートで高品質な音声再生を実現し、VQTTS モデルは高い合成音声品質を達成した。この組み合わせにより、低ビットレートかつ高品質な合成音声を生成できた。
歌声合成トラックでは、DAC(Descript Audio Codec)を離散音声ユニットとして使用し、VALL-Eベースのモデルアーキテクチャを採用した。DAC は44.1kHzの高サンプリングレートに対応しており、歌声合成に適している。
音声認識トラックでは、WavLMを用いて言語的特徴を抽出し、k-meansクラスタリングによって離散音声ユニットを生成した。Zipformerエンコーダと RNN-T損失関数を用いたニューラルトランスデューサモデルを構築し、高精度な音声認識を実現した。
全体として、X-LANCE研究グループは各トラックにおいて優れたパフォーマンスを発揮し、離散音声ユニットの有効性を示した。特にテキスト音声変換トラックでは、低ビットレートかつ高品質な合成音声を生成できた点が注目される。
統計
FunCodecを用いたテキスト音声変換システムのビットレートは250bpsと最も低い。
音声認識モデルのビットレートは550bpsであり、ベースラインよりも高い。
音声認識モデルはLibriSpeechデータセットでキャラクタ誤り率(CER)を13.0%相対的に改善した。