ビジョン・言語モデルの汎用性を高めるため、クラス認識に基づくプロトタイプの整列と識別を行う。これにより、ドメイン間のギャップを効果的に埋めることができる。
ビジョン-言語モデルをドメインシフトや零距離学習などのOOD一般化を維持しつつ、ダウンストリームタスクに適応させる手法を提案する。
短絡接続型MoEアーキテクチャは、従来のMoEにおける通信と計算の相互依存を解消し、大幅な処理速度の向上を実現する。
CLIP画像エンコーダの内部構造を分解し、個々の構成要素がどのように最終的な表現に寄与しているかを明らかにする。