音声処理タスクにおいて、データ拡張手法を適用することで、モデルのロバスト性と一般化性が向上することが示された。特に、SpecAugmentは元のデータセットでも性能向上を示し、Gaussian NoiseやSpeed Perturbationは対応する拡張データセットでの性能が優れていることが明らかになった。
ラベル付けされた音声データが少ない場合でも、テキスト音声合成拡散モデルを用いて合成データを作成し、データ拡張を行うことで、音声分類の精度を向上させることができる。