toplogo
Đăng nhập
thông tin chi tiết - 機器學習 - # 最優運輸引導的視覺提示測試時自適應

視覺提示引導的最優運輸測試時自適應


Khái niệm cốt lõi
本文提出了一種名為OT-VP的新穎測試時自適應方法,通過最優運輸距離優化視覺提示,有效地將源域和目標域對齊,從而提高預訓練模型在未知目標域上的性能。
Tóm tắt

本文提出了一種名為Optimal Transport-guided Test-Time Visual Prompting (OT-VP)的新穎測試時自適應方法。OT-VP利用視覺提示學習來有效地適應未知的目標域,而無需修改預訓練模型的參數。

具體來說,OT-VP通過最優運輸距離來優化目標域的視覺提示,從而將目標域的表示與預先計算的源域表示對齊。這樣可以有效地彌合源域和目標域之間的分布差距,提高預訓練模型在目標域上的性能。

OT-VP的工作流程如下:

  1. 將未標記的目標數據通過固定的預訓練視覺編碼器和可學習的提示令牌進行處理,得到目標域的表示和伪標籤。
  2. 計算目標域表示與預先計算的源域表示之間的最優運輸距離,並以此距離作為優化目標,更新提示令牌。
  3. 使用優化後的提示令牌對目標輸入進行預測。

OT-VP在三個風格數據集(PACS、VLCS和OfficeHome)和一個受損數據集(ImageNet-C)上的實驗結果表明,它能顯著提高預訓練模型在目標域上的性能,並且在計算和內存效率方面也優於現有的最先進方法。

edit_icon

Tùy Chỉnh Tóm Tắt

edit_icon

Viết Lại Với AI

edit_icon

Tạo Trích Dẫn

translate_icon

Dịch Nguồn

visual_icon

Tạo sơ đồ tư duy

visit_icon

Xem Nguồn

Thống kê
在PACS數據集上,OT-VP相比ERM模型提高了9.0%的準確率。 在VLCS數據集上,OT-VP相比ERM模型提高了4.6%的準確率。 在OfficeHome數據集上,OT-VP相比ERM模型提高了1.4%的準確率。 在ImageNet-C數據集上,OT-VP相比ERM模型提高了11.5%的平均準確率。
Trích dẫn
"OT-VP通過最優運輸距離優化視覺提示,有效地將源域和目標域對齊,從而提高預訓練模型在未知目標域上的性能。" "OT-VP在計算和內存效率方面也優於現有的最先進方法。"

Thông tin chi tiết chính được chắt lọc từ

by Yunbei Zhang... lúc arxiv.org 09-11-2024

https://arxiv.org/pdf/2407.09498.pdf
OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation

Yêu cầu sâu hơn

如何將OT-VP擴展到更複雜的在線設置中?

OT-VP(Optimal Transport-guided Visual Prompting)可以通過幾種方式擴展到更複雜的在線設置中。首先,OT-VP的設計本質上是為了在不改變預訓練模型參數的情況下進行測試時適應,這使得它在在線環境中具有高度的靈活性。在在線設置中,模型可以隨著時間接收連續的目標數據批次,並根據這些數據進行即時調整。具體來說,可以在初始訓練階段使用第一批數據進行少量的提示優化,然後對後續批次進行快速的單步更新,這樣可以在保持計算效率的同時,持續改進模型的適應性。此外,OT-VP還可以根據每個批次的特徵分佈變化,動態調整提示的學習率和更新策略,以應對潛在的域變化。這種方法不僅提高了模型的適應能力,還能在實際應用中保持高效的計算性能。

OT-VP是否可以應用於其他類型的預訓練模型,如CNN?

OT-VP的核心思想是通過最優運輸距離來優化視覺提示,這一方法主要是針對視覺變壓器(ViTs)設計的。然而,這一方法的基本原理也可以應用於其他類型的預訓練模型,如卷積神經網絡(CNN)。儘管CNN的架構與ViTs存在顯著差異,例如CNN通常依賴於批量正則化層,而ViTs則不然,但OT-VP的視覺提示優化策略仍然可以進行調整以適應CNN的特性。具體而言,可以在CNN的特徵提取層中引入可學習的提示,並利用最優運輸距離來對齊源域和目標域的特徵表示。這樣的擴展將使OT-VP在更廣泛的模型架構中發揮作用,從而提高其在不同計算機視覺任務中的適應性和性能。

除了最優運輸距離,是否還有其他度量可以用於優化視覺提示以適應目標域?

除了最優運輸距離(Optimal Transport distance),還有多種其他度量可以用於優化視覺提示以適應目標域。常見的度量包括最大均值差異(Maximum Mean Discrepancy, MMD)、Kullback-Leibler(KL)散度和地球移動距離(Wasserstein distance)。這些度量各自具有不同的特性和優勢。例如,MMD是一種基於核方法的度量,能夠有效捕捉源域和目標域之間的分佈差異,而KL散度則專注於測量兩個概率分佈之間的相似性。這些度量可以根據具體的應用場景和數據特性進行選擇和調整,以達到最佳的視覺提示優化效果。通過結合這些不同的度量,OT-VP可以進一步增強其在多樣化目標域中的適應能力和性能。
0
star