核心概念
VLMsにおけるモダリティギャップを解決する新しいUniMoSフレームワークが、効果的な多モーダル適応を実現します。
統計
CLIP [36]は400百万個以上のテキスト画像ペアからトレーニングされています。
UniMoSではResNet50バックボーンが使用されています。
引用
"Large vision-language models (VLMs) like CLIP have demonstrated good zero-shot learning performance in the unsupervised domain adaptation task."
"Our proposed Modality-Ensemble Training (MET) method fosters the exchange of modality-agnostic information while maintaining modality-specific nuances."