本研究では、ViTとCNNの特徴を活かした新しいハイブリッドモデルを提案している。
まず、supervised trainingの段階では、ViTエンコーダE1とCNNエンコーダE2を用いて、ラベル付きのソースデータとターゲットデータを学習する。
次に、Finding to Conqueringの段階では、E1を固定してF1とF2の出力の差を最大化することで、クラス固有の境界を明示的に見つける。その後、E2はこの境界に基づいてターゲットデータの特徴を最小化するように学習する。
最後に、co-trainingの段階では、ViTとCNNの知識の差を最小化するために、相互に擬似ラベルを生成し合う。
提案手法は、ViTとCNNの特徴を効果的に組み合わせることで、ドメイン適応タスクにおいて従来手法を大きく上回る性能を実現している。特に、Office-Homeデータセットでは平均81.2%、DomainNetデータセットでは平均85.5%の高精度を達成している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies