核心概念
事前学習したビジョントランスフォーマーモデルのパラメータを固定したまま、テスト時に最適輸送距離を最小化するように視覚プロンプトを学習することで、ソースドメインとターゲットドメインの分布の差を効果的に縮小し、モデルの性能を向上させる。
要約
本研究では、ビジョントランスフォーマー(ViT)を基盤としたテスト時適応手法「OT-VP」を提案している。OT-VPは、事前学習したViTモデルのパラメータを固定したまま、テスト時に視覚プロンプトを学習することで、ソースドメインとターゲットドメインの分布の差を最適輸送距離の最小化を通じて縮小する。
具体的には以下の手順で行う:
- ソースドメインの表現をあらかじめ計算しておく
- ターゲットデータをViTエンコーダに通し、学習可能な視覚プロンプトと共に表現を得る
- ソースとターゲットの表現の最適輸送距離を最小化するように、視覚プロンプトを更新する
- 更新された視覚プロンプトを用いてターゲットデータの予測を行う
この手法により、事前学習モデルのパラメータを変更することなく、ターゲットドメインへの適応が可能となる。実験の結果、OT-VPは既存の手法を上回る性能を示し、メモリ使用量や計算量も効率的であることが確認された。
統計
ソースドメインの表現とターゲットドメインの表現の最適輸送距離を最小化することで、ドメイン間の差を縮小できる。
視覚プロンプトを4つの学習可能なトークンとすることで、パラメータ数を大幅に削減できる。
事前学習モデルのパラメータを固定したままで、テスト時の適応が可能である。
引用
"Vision Transformers (ViTs) have demonstrated remarkable capabilities in learning representations, but their performance is compromised when applied to unseen domains."
"Our approach, Optimal Transport-guided Test-Time Visual Prompting (OT-VP), handles these problems by leveraging prompt learning at test time to align the target and source domains without accessing the training process or altering pre-trained model parameters."
"OT-VP, with only four learned prompt tokens, exceeds state-of-the-art performance across three stylistic datasets—PACS, VLCS, OfficeHome, and one corrupted dataset ImageNet-C."