Core Concepts
クロスモーダル知識蒸留は、限られた知識を持つデータモダリティ(深度マップ、高品質スケッチなど)に重要な技術である。本研究では、対照学習に基づくクロスモーダル知識蒸留の一般的なフレームワークを提案し、理論的な収束分析を行う。その結果、ソースモダリティとターゲットモダリティ間の全変動距離が小さいほど、ターゲットモダリティの下流タスクの性能が高くなることを示す。
Abstract
本論文では以下の内容が述べられている:
クロスモーダル知識蒸留の一般的なフレームワークであるCross-Modality Contrastive Distillation (CMCD)を提案した。CMCDは、対照学習を活用し、ソースモダリティからターゲットモダリティへの一般化可能な特徴の効率的な蒸留を目指す。
CMCDアルゴリズムの理論的な収束分析を行った。その結果、ターゲットモダリティの下流タスクのテストエラーは、ソースモダリティとターゲットモダリティ間の全変動距離に依存することを示した。つまり、両モダリティの距離が小さいほど、より良い一般化性能が得られる。
画像-スケッチ、ビデオ-音声、画像-深度マップなどの様々なクロスモーダルタスクで実験を行い、提案手法が既存手法を2-3%上回る性能を示した。特に、画像-スケッチタスクでは大きな性能向上が見られ、理論的な分析結果を支持する結果が得られた。
Stats
ソースモダリティとターゲットモダリティ間の全変動距離が小さいほど、ターゲットモダリティの下流タスクの性能が高くなる。
画像-スケッチタスクの全変動距離は0.04で、性能向上は8.30%/1.73%。
ビデオ-音声タスクの全変動距離は0.04で、性能向上は11.06%/3.38%。
画像-深度マップタスクの全変動距離は0.10で、性能向上は9.82%/2.46%。