核心概念
画像と音声の細粒度な整合性を高めることで、画像-音声検索の精度を向上させる新しい学習手法を提案する。
要約
本論文は、画像と音声の効果的な整合性を高めるための新しい学習手法「Cross-Modal Denoising (CMD)」を提案している。
主な内容は以下の通り:
従来の手法では、画像と音声の大域的な特徴の類似度を用いて整合性を取っていたが、細かい詳細を捉えきれていなかった。
CMD は、ある一方のモダリティの特徴から、他方のモダリティの意味的特徴を再構築する denoising タスクである。これにより、モダリティ間の細粒度な整合性を高めることができる。
CMD はトレーニング時にのみ使用され、推論時には不要となるため、推論時間の増加を招かない。
CMD と従来の画像-音声の対比学習を組み合わせることで、Flickr8k データセットで2.0%、SpokenCOCO データセットで1.7%の精度向上を達成した。
提案手法は、画像-音声検索の精度を大幅に向上させることができる。
統計
提案手法は、Flickr8kデータセットでは平均R@1が2.0%向上した。
提案手法は、SpokenCOCOデータセットでは平均R@1が1.7%向上した。
引用
"CMD は、ある一方のモダリティの特徴から、他方のモダリティの意味的特徴を再構築する denoising タスクである。これにより、モダリティ間の細粒度な整合性を高めることができる。"
"CMD はトレーニング時にのみ使用され、推論時には不要となるため、推論時間の増加を招かない。"