本文提出了一種新的攻擊方法,稱為基於反饋的跨模態互搜索(Feedback-based Modal Mutual Search, FMMS)。FMMS引入了一種新的跨模態互損失(Modal Mutual Loss, MML),旨在推開匹配的圖像-文本對,同時隨機拉近不匹配的對,引導對抗性樣本的更新方向。此外,FMMS利用目標模型的反饋信息,通過多輪的跨模態互搜索來迭代優化對抗性樣本,驅動它們進入對抗性區域。FMMS包括兩種搜索策略:Full搜索和Top-N搜索。Full搜索考慮整個數據集作為搜索空間,而Top-N搜索選擇匹配排名前N的條目,形成一個更有針對性的搜索空間,通常能獲得更好的性能。實驗結果表明,FMMS在Flickr30K和MSCOCO數據集上的圖像-文本匹配任務中,顯著優於現有的基線方法。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Renhua Ding,... في arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.06726.pdfاستفسارات أعمق