Core Concepts
大規模言語モデル(LLMs)がシンプルなルールに従う能力を測定するための新しいフレームワークであるRULESを提案します。
Abstract
大規模言語モデル(LLMs)は、実世界での責任を持つように展開されており、これらのシステムの振る舞いを信頼性のある方法で指定および制約することが重要です。既存の敵対的攻撃と防御の評価は、高価な手動レビューまたは信頼性の低いヒューリスティックチェックが必要です。私たちは、LLMsのルール遵守能力を測定するためのプログラムフレームワークであるRULESを提案しています。RULESは、14個のシンプルなテキストシナリオから構成されており、モデルにさまざまなルールに従ってロールプレイング活動に参加するよう指示します。私たちの評価では、現在のほとんどすべてのモデルがテストケースで規則に従うことに苦労していることが示されました。
Stats
大学名:UC Berkeley, Stanford, King Abdulaziz City for Science and Technology
テストケース数:475個(225個は無害なテストケース、250個は有益なテストケース)
ルール数:19個(無害な9個、有益な10個)
ベンチマークスコア:GPT-4が最も高得点を獲得しました。
Quotes
"Model developers may wish to set explicit rules for the model, such as “do not generate abusive content”, but these may be circumvented by jailbreaking techniques."
"Our evaluations of proprietary and open models show that almost all current models struggle to follow scenario rules, even on straightforward test cases."
"We also demonstrate that simple optimization attacks suffice to significantly increase failure rates on test cases."