核心概念
提案された新しい方法で、LLMをジェイルブレイキング攻撃から効果的に守ることができます。
摘要
この論文では、大規模言語モデル(LLMs)をジェイルブレイキング攻撃から守る新しい方法であるバックトランスレーションに焦点を当てています。通常、商用およびオープンソースのLLMsは有害なリクエストを拒否するように微調整されていますが、依然として敵対的なプロンプトに脆弱です。バックトランスレーションは、初期応答を元に生成された戻り翻訳プロンプトを使用して、元のプロンプトの有害な意図を明らかにすることが期待されます。この提案された防御方法は、既存の防御手法よりも優れた効果を示し、効果的で効率的です。
統計資料
我々の防衛は他の基準線を大幅に上回りました。
バックトランスレーションは有害な意図を明らかにすることが期待されます。
引述
"我々の提案された防衛は他の基準線を大幅に上回りました。"
"バックトランスレーションは有害な意図を明らかにすることが期待されます。"