核心概念
大規模言語モデル(LLM)に対するジェイルブレイク攻撃の防御能力を評価するための包括的なベンチマーク「JAILJUDGE」とその評価フレームワークを提案する。
要約
JAILJUDGEの概要
本稿では、大規模言語モデル(LLM)に対するジェイルブレイク攻撃の防御能力を評価するための包括的なベンチマークであるJAILJUDGEと、その評価フレームワークが提案されています。
近年のLLMの安全性向上に向けた研究は目覚ましいものがありますが、LLMがジェイルブレイク攻撃に対してどの程度耐性を持っているかを正確に評価することは依然として課題です。既存の評価手法は、説明可能性に欠け、複雑なシナリオへの一般化が難しいという問題点があります。例えば、推論の説明可能性を欠いた直接的な判定や、複雑なシナリオにおけるGPT-4の判定精度の低さ、多言語シナリオにおける評価の偏りなどが挙げられます。
JAILJUDGEは、これらの課題に対処するために、複雑な悪意のあるプロンプト(合成、敵対的、実世界のシナリオ、多言語など)を含む幅広いリスクシナリオと、高品質な人間による注釈付きテストデータセットを含む包括的な評価ベンチマークです。具体的には、JAILJUDGEデータセットは、推論の説明可能性を備えた35,000件以上の命令調整トレーニングデータを含むJAILJUDGETRAINと、4,500件以上の広範なリスクシナリオのラベル付きセットと、10言語の6,000件以上の多言語シナリオのラベル付きセットを含むJAILJUDGETESTで構成されています。