本文研究如何有意識地破壞大型語言模型(LLM)遵循提示指定的規則。作者首先提出了一個基於命題Horn邏輯的框架,用於建模規則遵循行為。該框架定義了三個關鍵屬性 - 單調性、最大性和正確性 - 來描述規則遵循的不同方式。
作者隨後分析了一個理論模型,研究transformer語言模型的推理可能被破壞的方式。他們發現,許多針對理論模型的攻擊也能轉移到從數據中學習的模型。此外,作者發現LLM的推理行為與理論模型一致,表明理論構造提供了一個現實的框架來研究LLM的推理。
最後,作者發現流行的"越獄"攻擊與理論攻擊具有相似的特徵,如使用的標記值和注意力模式。這表明,對較小的理論模型和定義良好的設置的研究可以提供有關"越獄"攻擊如何在LLM上工作的機制性洞見。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询