本論文は、大規模言語モデル(LLM)の「脱獄」攻撃に対する評価を標準化するためのベンチマーク「JailbreakBench」を提案している。
主な内容は以下の通り:
JBB-Behaviors データセット: 100種類の「脱獄」行動を含むデータセットを提供する。各行動は10のカテゴリに分類されている。
「脱獄」アーティファクトのリポジトリ: 最新の「脱獄」攻撃と防御に関するアーティファクトを収集・公開する。
LLMの「赤チーム」パイプライン: LLMに対する「脱獄」攻撃を効率的に生成・評価できるパイプラインを提供する。
LLMの防御パイプライン: 「脱獄」攻撃に対するLLMの防御手法を評価できるパイプラインを提供する。
「脱獄」分類器の選定: 「脱獄」の成功を判定する分類器を比較し、Llama Guardを採用する。
再現可能な評価フレームワーク: 「脱獄」攻撃の成功率を標準化して評価できるフレームワークを提供する。
JailbreakBenchウェブサイトとリーダーボード: 「脱獄」攻撃と防御の最新動向を追跡できるウェブサイトとリーダーボードを公開する。
全体として、JailbreakBenchは大規模言語モデルの「脱獄」攻撃に対する研究を加速させ、より安全なモデルの開発に貢献することが期待される。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Patrick Chao... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01318.pdfשאלות מעמיקות