大規模言語モデル(LLMs)は人間の言語を処理・生成する能力が高度であり、指示に従うことが可能。しかし、プロンプトインジェクション攻撃によって悪用される可能性がある。この研究では、統一されたフレームワークを導入し、5つの訓練サンプルだけで高い効果を達成する自動化された勾配ベースの方法を提案している。これにより、防御策に対しても有効性を示すことができる。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Xiaogeng Liu... ב- arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.04957.pdfשאלות מעמיקות