大規模言語モデル(LLMs)は人間の言語を処理・生成する能力が高度であり、指示に従うことが可能。しかし、プロンプトインジェクション攻撃によって悪用される可能性がある。この研究では、統一されたフレームワークを導入し、5つの訓練サンプルだけで高い効果を達成する自動化された勾配ベースの方法を提案している。これにより、防御策に対しても有効性を示すことができる。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Xiaogeng Liu... في arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.04957.pdfاستفسارات أعمق