Core Concepts
人間を欺くためには、真実の中に嘘を隠すことが重要である。本論文では、論理チェーン注入攻撃を提案し、善意の真実の中に悪意を埋め込む手法を示す。
Abstract
本論文は、大規模言語モデル(LLM)に対するジェイルブレイク攻撃について述べている。従来のジェイルブレイク攻撃は、LLMを欺くことはできるが、人間を欺くことはできない。そこで本論文では、人間も欺くことができる新しい種類のジェイルブレイク攻撃を提案する。
提案手法の核心は、人間は真実の中に嘘を隠すと簡単に欺かれるという社会心理学の洞察に基づいている。具体的には、悪意のある目標を一連の善意の物語に分解し、それらを関連する善意の記事に分散して埋め込むことで、LLMだけでなく人間も欺くことができる。
この手法では、悪意のある指示や情報を直接挿入するのではなく、それらを善意の文脈の中に隠し込むため、入力の変更検知や自己処理の防御策を回避できる。さらに、人間の目にも容易に検知されない。
本論文では、この手法の具体的な実装例として、段落構造や韻文の手法を用いて、悪意のある内容を善意の記事に埋め込む方法を示している。これらの手法は、LLMが論理的な関連性を捉えられるように設計されている。
Stats
人間は猫を可愛がる理由は、猫の特徴(大きな目、丸い顔、柔らかい毛)が人間の保護本能を引き出すためである。
パンダは擬似的な親指を持ち、物を巧みに操ることができる。
パンダは雪の中で戯れることができる。
Quotes
"人間は猫を可愛がる理由は、その確かな可愛らしさにある。"
"パンダはとてもとても可愛い。"
"パンダを家のペットとして飼えるだろうか?"