核心概念
本文提出了一種名為 ADV-LLM 的新型迭代自調優方法,該方法可以將任何預先訓練好的大型語言模型轉變為具有增強越獄能力的對抗性大型語言模型,並成功地繞過了 Llama2、Llama3 和 GPT-4 等強大模型的安全防護措施。
標題: 增強越獄能力的迭代自調優大型語言模型
作者: Chung-En Sun, Xiaodong Liu, Weiwei Yang 等人
機構: 加州大學聖地牙哥分校、微軟研究院、維吉尼亞大學
本研究旨在探討基於大型語言模型 (LLM) 的方法在生成對抗性後綴方面的潛力,以繞過目標模型的安全防護機制,並探討如何提高這些模型的安全性。