本文提出了一种基于强化学习的多粒度对抗性攻击框架RL-MARA,用于攻击黑盒神经排序模型。
现有的对抗性攻击方法通常局限于单一粒度级别的文本扰动,如词级、句子级等,这可能无法充分利用文档中不同粒度的脆弱性。
RL-MARA框架包括两个主要组件:1) 一个模拟目标神经排序模型行为的代理模型和一个评估文本自然性的大型语言模型组成的环境;2) 一个多粒度攻击者,由一个识别文档中脆弱位置的子代理和一个生成并组织多粒度扰动的元代理组成。
在强化学习过程中,两个代理协作,以确定最佳的多粒度扰动序列,从而生成有效且自然的对抗样本。
实验结果表明,RL-MARA在攻击效果和自然性方面都优于现有的单粒度攻击方法,特别是在攻击难度较高的文档时表现更为出色。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yu-An Liu,Ru... kl. arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01574.pdfDybere Forespørgsler