論文標題: 基於貝葉斯引導的標籤映射實現視覺重編程
研究目標: 本文旨在解決視覺重編程(VR)中預訓練模型與下游任務之間標籤空間不匹配的問題,特別是現有的一對一標籤映射方法忽略了兩者之間複雜的多對多關係,從而限制了VR的性能。
方法: 本文提出了一種基於貝葉斯引導的標籤映射方法(BLM)及其改進版本(BLM+)。BLM 通過構建一個迭代更新的概率標籤映射矩陣,量化預訓練標籤和下游標籤之間的成對關係,並利用貝葉斯條件概率來指導矩陣值的分配。BLM+ 則進一步考慮了預測中的不確定性,在估計聯合分佈時聚合了前 K 個預測概率。
主要發現: 在 12 個廣泛使用的數據集上進行的實驗表明,BLM 和 BLM+ 在不同的輸入 VR 方法(填充和水印)和預訓練模型(ResNet 和 ResNeXt)上均優於現有的標籤映射方法。
主要結論: 基於貝葉斯原理的 BLM 和 BLM+ 有助於 VR 利用預訓練知識來處理不同的下游任務,並為理解和分析 VR 的有效性提供了一個概率視角。
意義: 本研究為視覺重編程領域的標籤映射問題提供了一種新的解決方案,並通過實驗證明了其有效性。BLM 和 BLM+ 的提出為構建更可解釋的 VR 方法提供了指導。
局限性和未來研究方向: 未來可以進一步探索 BLM 和 BLM+ 在其他類型的預訓練模型(如視覺語言模型)上的應用,並研究如何進一步提高其性能和可解釋性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究