大規模言語モデル(LLMs)はジェイルブレイキング攻撃に脆弱性があるが、本論文ではSELFDEFENDという新たな防御手法を提案している。SELFDEFENDは、有害なプロンプトを検出し、通常のユーザープロンプトと区別するために影響力のあるシャドウスタックを導入している。この手法はGPT-3.5/4での手動分析によってその効果を証明しており、将来的な研究方向も提示されている。さらに、他のジェイルブレイク防御メカニズムと比較してSELFDEFENDは最小限の遅延しか発生させず、実用的なジェイルブレイク防御手法であることが示されている。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Daoyuan Wu,S... alle arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.15727.pdfDomande più approfondite