本論文は、大規模言語モデル(LLM)に対する攻撃手法について提案している。
まず、LLMの出力が清書文と攻撃文の条件付き確率分布の差を最大化することを目的関数とする。理論的に、この目的関数は清書文と攻撃文の埋め込み表現のマハラノビス距離を最大化することと等価であることを示した。
次に、この理論的結果に基づき、簡単かつ効果的な生成的プロンプト注入攻撃手法(G2PIA)を提案した。G2PIAは、プロンプトに攻撃文を挿入することで、LLMの出力を誤らせる。攻撃文は、清書文の意味的制約と余弦類似度の制約を満たすように生成される。
実験では、7つのLLMモデルと4つのデータセットを用いて、提案手法の有効性を示した。提案手法は、既存の黒箱攻撃手法と比較して優れた攻撃成功率を達成した。また、パラメータ感度分析や転移性の評価も行った。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chong Zhang,... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07234.pdfDeeper Inquiries