Core Concepts
プロンプトの小さな変更や、出力フォーマットの指定、ジェイルブレイクの使用が、大規模言語モデルの予測に大きな影響を及ぼすことが明らかになった。
Abstract
本研究では、プロンプトの変更が大規模言語モデルの予測に及ぼす影響を調査した。
出力フォーマットの指定:
- 出力フォーマットを指定するだけで、モデルの予測の10%以上が変化する。
- ChatGPTのJSON Checkboxを使用すると、さらに多くの予測が変化する。
小さな変更:
- プロンプトの冒頭や末尾に空白を追加するなどの小さな変更でも、500以上の予測が変化する。
- 挨拶の追加や「ありがとうございます」の追加でも、多くの予測が変化する。
- 命題を陳述文に書き換えると、最も大きな影響が見られる。
ジェイルブレイク:
- AIMやDev Mode v2のジェイルブレイクを使用すると、ChatGPTの90%以上の応答が無効になる。
- Evil ConfidantやRefusal Suppressionのジェイルブレイクでも、大幅な精度低下が見られる。
全体的な傾向として、モデルサイズが大きくなるほど、これらの変化に対するロバスト性が高まる。
Stats
出力フォーマットを指定するだけで、モデルの予測の10%以上が変化する。
ChatGPTのJSON Checkboxを使用すると、さらに多くの予測が変化する。
プロンプトの冒頭や末尾に空白を追加すると、500以上の予測が変化する。
AIMやDev Mode v2のジェイルブレイクを使用すると、ChatGPTの90%以上の応答が無効になる。
Quotes
"プロンプトの小さな変更や、出力フォーマットの指定、ジェイルブレイクの使用が、大規模言語モデルの予測に大きな影響を及ぼす"
"モデルサイズが大きくなるほど、これらの変化に対するロバスト性が高まる"