Core Concepts
多モーダル表現学習における対照学習の成功を示す。大規模なデータセットと新しいモデル設計により、テキストからオーディオへの検索やゼロショット音声分類で優れたパフォーマンスを達成。
Abstract
対照言語オーディオ事前学習のパイプライン提案。
LAION-Audio-630K:633,526の音声テキストペアをリリース。
特徴融合メカニズムとキーワードからキャプションへの拡張を導入してモデル性能向上。
テキストからオーディオ検索、ゼロショット音声分類、教師あり音声分類で実験を実施し、優れた結果を達成。
大規模なデータセットと新しいモデル設計による成功
Contrastive Language-Audio Pretraining Pipeline提案。
LAION-Audio-630K:633,526の音声テキストペアリリース。
特徴融合とキーワードからキャプションへの拡張が性能向上に貢献。
実験結果によるモデル性能評価
テキストからオーディオ検索で高性能を達成。
ゼロショットおよび教師あり音声分類タスクで最先端性能を実証。
Stats
LAION-Audio-630Kは633,526の音声テキストペアから成る大規模コレクションです。
提案されたモデルはゼロショット設定で最先端性能を達成しました。
Quotes
"Contrastive learning has shown remarkable success in the field of multimodal representation learning."
"Our model achieves superior performance in text-to-audio retrieval task."