この論文では、大規模言語モデル(LLMs)をジェイルブレイキング攻撃から守る新しい方法であるバックトランスレーションに焦点を当てています。通常、商用およびオープンソースのLLMsは有害なリクエストを拒否するように微調整されていますが、依然として敵対的なプロンプトに脆弱です。バックトランスレーションは、初期応答を元に生成された戻り翻訳プロンプトを使用して、元のプロンプトの有害な意図を明らかにすることが期待されます。この提案された防御方法は、既存の防御手法よりも優れた効果を示し、効果的で効率的です。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yihan Wang,Z... a las arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.16459.pdfConsultas más profundas