Concepts de base
ニューラルオーディオコーデックを使用して連続オーディオ信号を離散トークンに量子化すると、同一のオーディオ信号が異なる離散トークン系列にエンコーディングされる問題が発生する。これは離散表現の不整合(Discrete Representation Inconsistency: DRI)と呼ばれ、ニューラルコーデック言語モデルの予測精度を低下させる。
Résumé
本研究では、ニューラルオーディオコーデックにおけるDRI現象を分析し、その問題点を明らかにした。
- 同一のオーディオ信号が、コンテキストの有無によって異なる離散トークン系列にエンコーディングされる現象を確認した。
- 定量的な分析の結果、既存のニューラルオーディオコーデックでは、深い層ほど一貫性が低下することが分かった。
- この不整合は、ニューラルコーデック言語モデルの予測精度を低下させる要因となる。
- そこで、スライス一貫性手法とパーターベーション一貫性手法を提案し、ニューラルオーディオコーデックの一貫性を向上させた。
- 実験の結果、提案手法はEnCodecと比べて、第1層で21.47%、第1-3層で29.17%、第1-8層で36.29%の一貫性向上を達成した。
- さらに、提案手法を用いたニューラルコーデック言語モデル(VALL-E)は、LibriTTSデータセットで3.72%のWER削減、5.68%のスピーカー類似度向上を実現した。大規模MLS データセットでも同様の効果が確認された。
Stats
同一のオーディオ信号が、コンテキストの有無によって異なる離散トークン系列にエンコーディングされる。
深い層のニューラルオーディオコーデックほど、一貫性が低下する。
Citations
「テキストトークンは文脈に依存せずに一意に決まるのに対し、オーディオトークンは文脈に依存して変化する」
「この不整合は、ニューラルコーデック言語モデルの予測精度を低下させる要因となる」