核心概念
本文介紹了一種名為「注意力追蹤器」的新方法,用於偵測大型語言模型 (LLM) 中的提示注入攻擊。該方法基於對 LLM 注意力機制的分析,特別是一種稱為「注意力分散效應」的現象,即攻擊性提示會將模型的注意力從原始指令轉移到注入的指令。
Kuo-Han Hung, Ching-Yun Ko, Ambrish Rawat, I-Hsin Chung, Winston H. Hsu, Pin-Yu Chen. (2024). Attention Tracker: Detecting Prompt Injection Attacks in LLMs. arXiv preprint arXiv:2411.00348v1.
本研究旨在探討大型語言模型 (LLM) 中提示注入攻擊的運作機制,並開發一種有效且輕量級的偵測方法。