この論文では、大規模言語モデル(LLMs)をジェイルブレイキング攻撃から守る新しい方法であるバックトランスレーションに焦点を当てています。通常、商用およびオープンソースのLLMsは有害なリクエストを拒否するように微調整されていますが、依然として敵対的なプロンプトに脆弱です。バックトランスレーションは、初期応答を元に生成された戻り翻訳プロンプトを使用して、元のプロンプトの有害な意図を明らかにすることが期待されます。この提案された防御方法は、既存の防御手法よりも優れた効果を示し、効果的で効率的です。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yihan Wang,Z... lúc arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.16459.pdfYêu cầu sâu hơn