Core Concepts
大規模な音声-テキストデータセットを収集し、2段階の学習アプローチを用いることで、音声-テキスト対照モデルの性能を大幅に向上させた。
Abstract
本研究では、以下の取り組みを行った:
大規模な音声-テキストデータセットの収集
クリーンラベルデータセット、ノイジーラベルデータセット、弱ラベル/無ラベルデータセットを組み合わせ、合計13,000時間以上の音声データを収集
ノイジーラベルデータセットについては、大規模言語モデルを用いてテキスト説明を自動クリーニング
弱ラベル/無ラベルデータセットについては、音声キャプショニングモデルを用いて合成キャプションを生成
2段階の学習アプローチ
第1段階: 音声エンコーダをマスクド自己符号化器(MAE)で事前学習
第2段階: 第1段階で学習した音声エンコーダを初期化し、対照学習とキャプショニングの2つの目的関数で学習
包括的な評価
音声-テキスト検索、音声質問応答、ゼロショット分類、HEAR ベンチマークなど、様々なタスクで評価
提案手法であるCacophonyは、これらのタスクで最先端の性能を達成
本研究の成果により、大規模データと効果的な学習アプローチを組み合わせることで、高性能な音声-テキスト対照モデルを実現できることが示された。
Stats
提案手法Cacophonyは、AudioCaps データセットの音声-テキスト検索タスクでR@1 55.3%を達成し、最先端の性能を示した。
Clotho-AQA データセットの2値分類タスクでは70.7%の精度を達成し、最高性能を示した。
ESC-50 データセットのゼロショット分類タスクでは93.4%の精度を達成し、最高性能を示した。
Quotes
"大規模な音声-テキストデータセットを収集し、2段階の学習アプローチを用いることで、音声-テキスト対照モデルの性能を大幅に向上させた。"
"提案手法Cacophonyは、様々な音声理解タスクで最先端の性能を達成した。"