核心概念
既存のデータには詳細が不足しているため、豊富な情報を含むオーディオテキストペアをシミュレートする自動パイプラインが提案されています。
要約
最近、音声とテキストのクロスモーダル学習に注目が集まっています。しかし、ほとんどの既存の音声テキストデータセットには、単純な音の説明しか含まれていません。このため、本論文では人間の音声説明に含まれる詳細情報を分析し、豊富な詳細を持つオーディオテキストペアを収集する自動パイプラインを提案しています。具体的には、時間関係、音量、話者の身元、発生回数など4つの側面で詳細を制御し、大規模言語モデルによってそれらの詳細がキャプションに変換されます。これにより、テキスト記述で豊かな詳細を持つオーディオテキストペアが得られます。また、小規模なシミュレートデータでパイプラインの効果を検証しました。
統計
115種類以上のサウンドイベントから合計115個以上のサウンドイベント用オーディオクリップを収集しました。
2,785個のシミュレートされたオーディオテキストペアが微調整用に生成されました。
ファインチューニング時に非常に小さな学習率(2 × 10^-6)が使用されました。
引用
"我々は人間注釈付きデータ不足問題に取り組もうとしており..."
"実験結果は、シミュレートデータで微調整されたモデルがより詳細なキャプションを生成できることを示しています。"