Core Concepts
データ拡張を活用した音声・視覚コントラスト学習の新しい枠組みを提案する。
Abstract
1. 概要
音声と視覚の対応関係を学習する自己教師付きオーディオビジュアルコントラスト学習の重要性。
EquiAVフレームワークの概要と、共有注意ベース変換予測器による等価性の利用。
2. 方法論
プレトレーニングにおける自己教師なし学習と、音声・視覚エンコーダーの初期化方法。
インターモーダルおよびイントラモーダル投影ヘッドの役割と構造。
3. 実験結果
オーディオセットやVGGSoundなどで行われた実験に基づくゼロショットリトリーバル結果とファインチューニング成績。
異なるアーキテクチャや訓練戦略による実験結果。
4. 評価結果
EquiAVが従来手法を上回ることが示されたゼロショットリトリーバルやファインチューニング成績。
モデルが異なるデータセットで一貫して優れたパフォーマンスを発揮することが確認された点。