核心概念
視覺-語言模型可以有效地檢測含有噪音標籤的樣本,並利用篩選出的乾淨樣本進一步提升圖像分類性能。
摘要
本文提出了一個名為DEFT的去噪微調框架,用於利用含有噪音標籤的數據集來適應預訓練的視覺-語言模型。DEFT包括兩個階段:
噪音標籤檢測階段:
學習正負文本提示,以識別乾淨和噪音樣本。正提示旨在揭示類別的特徵,而負提示則作為可學習的閾值來分離乾淨和噪音樣本。
利用參數高效微調(PEFT)方法來適應視覺編碼器,以提高視覺特徵與學習到的文本提示的對齊。
模型適應階段:
利用篩選出的乾淨樣本,通過完全微調(FFT)進一步提升模型在目標任務上的性能。
這一階段可以應用於各種預訓練模型,展現了DEFT的通用性。
實驗結果表明,DEFT在各種合成和真實世界數據集上的噪音標籤檢測和圖像分類任務中均取得了顯著的性能提升。
統計資料
在Tiny-ImageNet數據集上,DEFT在60%對稱噪音下的精確率和召回率分別提高了4.58%和4.55%。
在CUB-200-2011數據集上,DEFT在60%對稱噪音下的精確率和召回率分別提高了9.78%和14.42%。
引述
"視覺-語言模型可以有效地檢測含有噪音標籤的樣本,並利用篩選出的乾淨樣本進一步提升圖像分類性能。"
"DEFT包括兩個階段:噪音標籤檢測階段和模型適應階段。"
"實驗結果表明,DEFT在各種合成和真實世界數據集上的噪音標籤檢測和圖像分類任務中均取得了顯著的性能提升。"