Ghosh, S., Kumar, S., Kong, Z., Valle, R., Catanzaro, B., & Manocha, D. (2024). Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data. arXiv preprint arXiv:2410.02056v1.
本研究は、ラベル付けされた音声データが少ない場合に、テキスト音声合成拡散モデルを用いて合成データを作成し、データ拡張を行うことで、音声分類の精度を向上させることを目的とする。
本研究では、Synthioと呼ばれる新しいデータ拡張手法を提案する。Synthioは、まず、大規模な弱キャプション付き音声データセットを用いてテキスト音声合成拡散モデルを学習する。次に、このモデルを用いて、小規模な音声分類データセットの各音声データに対応する合成音声データを生成する。この際、生成される合成音声データの多様性を確保するために、MixCapと呼ばれる新しいキャプション生成手法を提案する。MixCapは、大規模言語モデルを用いて、既存の音声データのキャプションと新しい音声コンポーネントを組み合わせた多様なキャプションを生成する。さらに、生成された合成音声データの品質を向上させるために、CLAPを用いたフィルタリングと、大規模言語モデルを用いた自己反省モジュールを提案する。
提案手法を10種類の音声分類データセットと4種類の小規模データ設定で評価した結果、Synthioはベースライン手法よりも0.1%から39%高い精度を達成した。特に、データセットのサンプル数が少ない場合に、Synthioは大きな精度向上を示した。
本研究では、テキスト音声合成拡散モデルを用いた合成データによるデータ拡張が、小規模な音声分類データセットにおいて有効であることを示した。Synthioは、従来のデータ拡張手法よりも高品質な合成データを生成することができ、音声分類の精度を大幅に向上させることができる。
本研究は、音声認識や音声検索など、音声データを扱う様々なアプリケーションにおいて、データ拡張の有効性を示すものである。特に、ラベル付けされた音声データの収集が困難な分野において、Synthioは有用なツールとなる可能性がある。
本研究では、テキスト音声合成拡散モデルとしてStable Audioを用いているが、他のモデルを用いた場合の性能については検討していない。また、MixCapで生成されるキャプションの品質は、大規模言語モデルの性能に依存するため、より高性能な大規模言語モデルを用いることで、Synthioの性能をさらに向上させることができる可能性がある。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Sreyan Ghosh... um arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02056.pdfTiefere Fragen