核心概念
多モーダル表現学習における対照学習の成功を示す。大規模なデータセットと新しいモデル設計により、テキストからオーディオへの検索やゼロショット音声分類で優れたパフォーマンスを達成。
統計
LAION-Audio-630Kは633,526の音声テキストペアから成る大規模コレクションです。
提案されたモデルはゼロショット設定で最先端性能を達成しました。
引用
"Contrastive learning has shown remarkable success in the field of multimodal representation learning."
"Our model achieves superior performance in text-to-audio retrieval task."