大規模言語モデル(LLMs)は外部コンテンツと統合されることで、様々なタスクで成功を収めている。しかし、外部コンテンツに悪意ある命令が埋め込まれた場合、LLMsはそれらの命令を実行してしまう脆弱性があり、これが間接プロンプトインジェクション攻撃のリスクを引き起こす。この研究では、BIPIAという新たなベンチマークを導入し、さまざまなアプリケーションシナリオで既存のLLMsの脆弱性を評価し、有効な防御策を提案している。具体的には、黒箱および白箱の防御戦略を開発し、攻撃成功率を低下させつつも機能性に影響を与えない方法を示している。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jingwei Yi,Y... kl. arxiv.org 03-07-2024
https://arxiv.org/pdf/2312.14197.pdfDybere Forespørgsler