この論文では、大規模言語モデル(LLMs)をジェイルブレイキング攻撃から守る新しい方法であるバックトランスレーションに焦点を当てています。通常、商用およびオープンソースのLLMsは有害なリクエストを拒否するように微調整されていますが、依然として敵対的なプロンプトに脆弱です。バックトランスレーションは、初期応答を元に生成された戻り翻訳プロンプトを使用して、元のプロンプトの有害な意図を明らかにすることが期待されます。この提案された防御方法は、既存の防御手法よりも優れた効果を示し、効果的で効率的です。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問