Core Concepts
クロスモーダル情報を統合したキャッシュモデルを構築し、モーダル間の類似度の動的な調整と学習困難サンプルの強化学習によって、ビジョン・ランゲージモデルの性能と汎化性を大幅に向上させる。
Abstract
本研究は、ビジョン・ランゲージモデルの効率的な転移学習手法であるクロスモーダルアダプター(XMAdapter)を提案している。
まず、従来のアダプター手法は画像モダリティとテキストモダリティを独立に扱っていたが、XMAdapterは両者の情報を統合したクロスモーダルなキャッシュモデルを構築する。これにより、モーダル間の相互作用を活用できる。
次に、画像とテキストの類似度を動的に調整する手法を導入する。これにより、モーダリティ間の寄与度を適切に制御できる。さらに、モーダリティ間の類似度の差異に基づいて学習困難なサンプルを特定し、それらに重点的に学習を行うことで、モデルの性能を向上させる。
実験の結果、XMAdapterは11のベンチマークデータセットにおいて従来手法を大幅に上回る精度を達成した。また、4つのドメイン一般化タスクでも優れた汎化性を示した。さらに、パラメータ効率や計算コストの観点でも優れた性能を発揮することが確認された。
以上より、XMAdapterは効率的な転移学習を実現し、ビジョン・ランゲージモデルの性能と汎化性を大幅に向上させることができる。
Stats
提案手法XMAdapterは、11のベンチマークデータセットにおいて平均76.87%の精度を達成し、従来手法より0.65%高い性能を示した。
特に、細粒度分類タスクのFGVCAircraftデータセットでは、2-shot、4-shot、8-shot、16-shotの全ての設定で提案手法が最高精度を記録した。
ドメイン一般化タスクでは、提案手法がResNet-50、ResNet-101、ViT-B/32、ViT-B/16の4つのバックボーンで平均0.31%~0.61%の精度向上を示した。
Quotes
"クロスモーダル情報を統合したキャッシュモデルを構築し、モーダル間の類似度の動的な調整と学習困難サンプルの強化学習によって、ビジョン・ランゲージモデルの性能と汎化性を大幅に向上させる。"
"XMAdapterは11のベンチマークデータセットにおいて従来手法を大幅に上回る精度を達成した。また、4つのドメイン一般化タスクでも優れた汎化性を示した。"