核心概念
ニューラルオーディオコーデックの出現により、大規模言語モデルがゼロショット音声合成の有望なアプローチとなっている。本研究では、トークン長の圧縮と複数トークンの一度の生成を可能にするプロバビリスティックな残差ベクトル量子化を提案し、効率的な言語モデリングを実現する。
要約
本研究では、ニューラルオーディオコーデックを活用したゼロショット音声合成の課題に取り組んでいる。
- ニューラルオーディコーデックは、オーディオを複数のトークンシーケンスにエンコードするが、これは効率的な言語モデリングの障壁となる。
- そこで本研究では、プロバビリスティックな残差ベクトル量子化を提案し、トークン長の圧縮と複数トークンの一度の生成を可能にする。
- これにより、大規模言語モデルを効率的に活用できるCLaM-TTSシステムを開発した。
- 100K時間の大規模データセットを使って学習したCLaM-TTSは、自然性、明瞭性、話者類似度、推論速度の面で、最先端のニューラルコーデック音声合成モデルと同等以上の性能を示した。
- また、言語モデルの事前学習の深さや、テキストのトークナイゼーション手法がパフォーマンスに与える影響を分析した。
統計
音声合成の自然性を示す指標PESQ値は2.95であり、従来手法のEncodecの2.59を上回っている。
音声合成の明瞭性を示すViSQOL値は4.66であり、Encodecの4.26を上回っている。