本文提出了一種頻率和注意力驅動的遮蔽和丟棄策略(FAMT),用於提高遮蔽圖像建模(MIM)的性能和訓練效率。
首先,FAMT利用自注意力機制在無監督的情況下提取圖像的語義信息,作為遮蔽的依據。但是,單單依靠注意力可能會聚焦在不恰當的區域。因此,作者將頻率域信息引入到自注意力機制中,以得到更好的遮蔽權重。
此外,FAMT還引入了一種基於遮蔽權重的丟棄策略,進一步減少了訓練成本。FAMT可以無縫集成為即插即用的模塊,並且在各種數據集上超越了之前的工作,例如將MAE的線性探測精度提高了1.3%~3.9%,同時也顯著提高了檢測和分割任務的性能。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jie Gui, Tuo... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2211.15362.pdfDypere Spørsmål