オープンソースイニシアティブを通じて事前トレーニングされた言語モデルの民主化が進み、革新が拡大しています。しかし、この開放性は、特定の入力によってトリガーされる隠れた悪意ある行動によるバックドア攻撃など、重要なセキュリティリスクももたらします。本研究では、バックドア付きモデルを他の同質モデルとマージすることで、バックドア脆弱性を緩和できることを示唆しています。実験では、さまざまなモデル(BERT-Base、RoBERTa-Large、Llama2-7B、Mistral-7B)およびデータセット(SST-2、OLID、AG News、QNLI)を探索しました。多くの高度な防御手法と比較して、当社の手法は追加リソースや特定の知識が必要なくバックドア攻撃に対する効果的かつ効率的な推論段階の防御を提供します。当社の手法は他の高度な基準よりも一貫して優れたパフォーマンスを発揮し、攻撃成功率平均75%削減につながります。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ansh Arora,X... о arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19334.pdfГлибші Запити