大規模言語モデル(LLMs)は人間の言語を処理・生成する能力が高度であり、指示に従うことが可能。しかし、プロンプトインジェクション攻撃によって悪用される可能性がある。この研究では、統一されたフレームワークを導入し、5つの訓練サンプルだけで高い効果を達成する自動化された勾配ベースの方法を提案している。これにより、防御策に対しても有効性を示すことができる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xiaogeng Liu... lúc arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.04957.pdfYêu cầu sâu hơn