Core Concepts
本研究では、音声の多様性を5つの側面(声質、性別、感情、アクセント、背景ノイズ)から測る指標「MAD Speech」を提案する。これらの指標は、一般的な音声表現モデルに特化したプロジェクションモデルを組み合わせることで構築される。提案手法は、既存の手法よりも音声の多様性をより正確に捉えることができる。
Abstract
本研究では、音声の多様性を5つの側面(声質、性別、感情、アクセント、背景ノイズ)から測る指標「MAD Speech」を提案している。
まず、一般的な音声表現モデルとして「SpeechSim」を構築し、その上に各側面の多様性を捉えるためのプロジェクションモデルを学習する。これにより、各側面の多様性を個別に評価できるようになる。
次に、各側面の多様性レベルを制御した評価用データセットを構築し、提案手法と既存手法の性能を比較する。その結果、提案手法が既存手法よりも音声の多様性をより正確に捉えられることが示された。
最後に、いくつかの音声生成モデルの改良手法を適用した際の音声の多様性の変化を分析した。その結果、音声の多様性は非自明に変化することが明らかになった。このことから、音声の多様性を適切に評価することの重要性が示された。
Stats
音声の多様性は、声質、性別、感情、アクセント、背景ノイズの5つの側面から評価される。
提案手法のSpeechSimは、既存の音声表現モデルよりも音声の多様性をより正確に捉えることができる。
SoundStormは、AudioLMと比べて、声質、感情、アクセント、背景ノイズの多様性が高い一方で、性別の多様性は低い。
Best-of-K デコーディングを用いると、ほとんどの側面で多様性が低下する。
生成時の温度パラメータを変化させると、声質の多様性が大きく変化するが、性別の多様性はほとんど変化しない。
Quotes
"Generative spoken language models produce speech in a wide range of voices, prosody, and recording conditions, seemingly approaching the diversity of natural speech."
"Being able to measure speech diversity would also help detect mode collapse when finetuning models (Kirk et al., 2023), selecting training & inference hyperparameters, and optimizing for human feedback (Cideron et al., 2024)."
"Equally, the sampling temperature, a frequently tuned hyperparameter, also affects the resulting acoustic diversity."