核心概念
本稿では、大規模言語モデル(LLM)の出力を正確に操作できる、普遍的で文脈に依存しないトリガーを発見するための勾配ベースの手法を提案する。
要約
大規模言語モデルに対する新しいプロンプトインジェクション攻撃手法
本稿は、大規模言語モデル(LLM)に対する新しいプロンプトインジェクション攻撃手法を提案する研究論文である。
Jiashuo Liang, Guancheng Li, and Yang Yu. "Universal and Context-Independent Triggers for Precise Control of LLM Outputs." arXiv preprint arXiv:2411.14738v1 (2024).
本研究の目的は、LLMの出力を正確に制御できる、普遍的で文脈に依存しないトリガーを発見することである。