最近、音声とテキストのクロスモーダル学習に注目が集まっています。しかし、ほとんどの既存の音声テキストデータセットには、単純な音の説明しか含まれていません。このため、本論文では人間の音声説明に含まれる詳細情報を分析し、豊富な詳細を持つオーディオテキストペアを収集する自動パイプラインを提案しています。具体的には、時間関係、音量、話者の身元、発生回数など4つの側面で詳細を制御し、大規模言語モデルによってそれらの詳細がキャプションに変換されます。これにより、テキスト記述で豊かな詳細を持つオーディオテキストペアが得られます。また、小規模なシミュレートデータでパイプラインの効果を検証しました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xuenan Xu,Xi... alle arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04594.pdfDomande più approfondite