最近、音声とテキストのクロスモーダル学習に注目が集まっています。しかし、ほとんどの既存の音声テキストデータセットには、単純な音の説明しか含まれていません。このため、本論文では人間の音声説明に含まれる詳細情報を分析し、豊富な詳細を持つオーディオテキストペアを収集する自動パイプラインを提案しています。具体的には、時間関係、音量、話者の身元、発生回数など4つの側面で詳細を制御し、大規模言語モデルによってそれらの詳細がキャプションに変換されます。これにより、テキスト記述で豊かな詳細を持つオーディオテキストペアが得られます。また、小規模なシミュレートデータでパイプラインの効果を検証しました。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询