Concepts de base
多モーダル表現学習における対照学習の成功を示す。大規模なデータセットと新しいモデル設計により、テキストからオーディオへの検索やゼロショット音声分類で優れたパフォーマンスを達成。
Stats
LAION-Audio-630Kは633,526の音声テキストペアから成る大規模コレクションです。
提案されたモデルはゼロショット設定で最先端性能を達成しました。
Citations
"Contrastive learning has shown remarkable success in the field of multimodal representation learning."
"Our model achieves superior performance in text-to-audio retrieval task."