大規模言語モデルの出力確率分布の差を最大化することで、攻撃文を生成する手法を提案する。
大規模言語モデルに内在する有害な知識を忘却することで、脱獄攻撃に対する防御能力を高めることができる。
命令チューニングされた大規模言語モデルは、ユーザーの指示に基づいて応答を調整できるため、社会的影響力が大きいが、同時に悪意のある方法で操作される可能性もある。本研究では、仮想プロンプト注入(VPI)と呼ばれる新しい種類のバックドア攻撃を提案し、その脅威を実証する。
大規模言語モデルが安全な情報を生成しつつ、防御意図を隠蔽する方法を提案する。
大規模言語モデルの「脱獄」攻撃を効果的に評価し、攻撃と防御の進捗を追跡するための標準化されたベンチマークを提案する。