Core Concepts
自然言語のプロンプトは、人間には理解できないが言語モデルの動作を同様に引き起こすプロンプトに置き換えることができる。これらの「悪の双子」プロンプトは、モデル間で転用可能である。
Abstract
本論文は、人工知能(AI)プロンプトの解釈可能性に関する新しい知見を提示している。主な内容は以下の通り:
自然言語のプロンプトを、人間には理解できないが言語モデルの動作を同様に引き起こす「悪の双子」プロンプトに置き換えることができる。
これらの「悪の双子」プロンプトは、様々な言語モデル間で転用可能である。つまり、ある言語モデルで最適化されたプロンプトは、別のモデルでも同様の機能を発揮する。
「悪の双子」プロンプトは、トークンの順序や置換に対して頑健であるが、モデルファミリーによって異なる。
プロンプトの読解性を高めるための試みは、プロンプトの機能的類似度を改善しない。
これらの発見は、言語モデルがプロンプトをどのように解釈しているかについての理解を深めるものであり、プロンプトの設計や安全性の観点から重要な示唆を与えている。
Stats
自然言語のプロンプトと「悪の双子」プロンプトのKLダイバージェンスは、4.3±0.4から19.4±0.5の範囲にある。
「悪の双子」プロンプトは、様々な言語モデルで50%以上の高い転用率を示す。
「悪の双子」プロンプトは、トークンの順序に対して頑健であるが、トークンの置換に対しては脆弱である。
Quotes
"自然言語のプロンプトは、人間には理解できないが言語モデルの動作を同様に引き起こすプロンプトに置き換えることができる。"
"これらの「悪の双子」プロンプトは、モデル間で転用可能である。"
"「悪の双子」プロンプトは、トークンの順序に対して頑健であるが、トークンの置換に対しては脆弱である。"