Основні поняття
大型語言模型 (LLM) 雖然功能強大,但也容易受到惡意攻擊,例如「越獄攻擊」(jailbreak attacks)。為確保 LLM 在各領域的安全應用,開發有效的防禦機制至關重要。
這篇研究論文介紹了由新加坡 AI Singapore (AISG) 和 CyberSG R&D Programme Office (CRPO) 聯合舉辦的「全球大型語言模型安全挑戰賽」(Global Challenge for Safe and Secure LLMs)。這項比賽旨在促進開發先進的防禦機制,以應對針對大型語言模型的自動化「越獄攻擊」。
比賽背景
隨著大型語言模型 (LLM) 在醫療保健、金融和公共行政等關鍵領域的應用日益廣泛,確保這些模型能夠抵禦惡意攻擊對於防止濫用和維護道德標準至關重要。
挑戰賽目標
這項挑戰賽分為兩個不同的賽道,旨在評估和增強 LLM 安全框架的穩健性。
第一軌 要求參賽者開發自動化方法,通過誘導 LLM 產生不良反應來探測其漏洞,從而有效測試 LLM 現有安全協議的極限。參賽者需要設計出能夠繞過各種場景下內容保護措施的技術,包括攻擊性語言、錯誤資訊和非法活動。通過這一過程,第一軌旨在加深對 LLM 漏洞的理解,並為創建更具彈性的模型提供見解。
第二軌 計劃於 2025 年開始,將強調開發與模型無關的防禦策略,旨在應對先進的「越獄攻擊」。該賽道的首要目標是推進適應性強的框架,以便有效減輕針對各種 LLM 架構的惡意攻擊。
第一軌重點回顧
本報告詳細介紹了第一軌的執行情況,並深入回顧了前五名團隊所採用方法。
評估指標: 第一軌的主要評估方式是「攻擊成功率」(ASR),即成功誘導不良行為(越獄響應)的次數與提示總數的比率。
技術方法: 報告重點介紹了排名靠前的團隊如何利用各種技術,例如情境誘導模板和後綴攻擊機制,來成功繞過 LLM 的安全防護措施。
總結
第一軌的結果凸顯了 LLM 越獄方法和安全測試方面的重大進展。這些技術不僅展現了繞過安全措施的有效性,還體現了在不同模型類型之間的遷移能力,突顯了現代對抗方法的適應性和複雜性。
Статистика
參賽團隊根據其模型對 85 種預定義不良行為的抵抗力進行評估,這些行為涵蓋偏見、攻擊性內容、錯誤資訊和促進非法活動等類別。
Track 1A 測試的模型包括 Llama-2-7b-chat-hf、Vicuna-7B 和一個未公開模型。
Track 1B 測試的模型包括 Llama-2-7b-chat-hf 和兩個未公開模型。