核心概念
VLMsにおけるモダリティギャップを解決する新しいUniMoSフレームワークが、効果的な多モーダル適応を実現します。
統計資料
CLIP [36]は400百万個以上のテキスト画像ペアからトレーニングされています。
UniMoSではResNet50バックボーンが使用されています。
引述
"Large vision-language models (VLMs) like CLIP have demonstrated good zero-shot learning performance in the unsupervised domain adaptation task."
"Our proposed Modality-Ensemble Training (MET) method fosters the exchange of modality-agnostic information while maintaining modality-specific nuances."