本論文は、大規模言語モデルの防御能力を強化するために、攻撃者-偽装者ゲームフレームワークを提案している。このフレームワークでは、攻撃者、偽装者、安全性評価者、偽装評価者の4つの知能エージェントが、攻撃と防御のシナリオをシミュレートする。
攻撃者は、大規模言語モデルに有害な情報を生成させるための攻撃質問を生成する。一方、偽装者は攻撃質問を検出し、防御意図を隠蔽した安全な回答を生成する。安全性評価者と偽装評価者は、偽装者が生成した回答の安全性と偽装度を評価し、その結果に基づいて攻撃者と偽装者が次のラウンドの戦略を選択する。
この攻撃者-偽装者ゲームのプロセスでは、カリキュラム学習に基づいて、徐々に難易度の高い学習サンプルを選択することで、大規模言語モデルの防御意図隠蔽能力を段階的に強化する。
実験結果は、提案手法が他の手法と比較して、より高い割合の防御意図を隠蔽した回答を生成できることを示している。また、提案手法は任意の大規模言語モデルに適用可能であり、モデルのバージョン変更の影響を受けない。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문