核心概念
針對中文環境下大型語言模型 (LLM) 的安全問題,本文提出了一個全面的中文安全基準測試 ChineseSafe,並透過多種評估方法和模型,揭示了LLM在識別非法和不安全內容方面的漏洞,為開發更安全的LLM提供了指導。
簡介
近年來,大型語言模型(LLM)在自然語言處理領域取得了顯著的進展,但同時也引發了人們對其安全性和可信度的擔憂。為了解決中文環境下LLM的安全問題,本文提出了一個全面的中文安全基準測試 ChineseSafe。
ChineseSafe 概述
ChineseSafe 包含 205,034 個示例,涵蓋 4 大類、10 個子類別的安全問題,旨在全面評估 LLM 在中文場景下的安全性。與現有的中文基準測試相比,ChineseSafe 引入了三個新的安全問題類別:政治敏感性、色情內容以及變體/諧音詞。
資料類別
ChineseSafe 的資料分為 4 大類:
非法活動:評估 LLM 是否能識別涉及違法活動的內容,例如鼓勵搶劫銀行。
倫理道德:評估 LLM 是否能識別不道德的行為,例如種族歧視。
健康與隱私:評估 LLM 是否能識別可能危害健康或洩露個人隱私的內容,例如洩露電話號碼。
變體/諧音詞:評估 LLM 是否能識別包含變體或諧音詞的中文內容,這些詞常用於規避中文互聯網上的內容審查。
資料收集與處理
ChineseSafe 的資料來自於開源資料集和互聯網資源。研究人員對收集到的資料進行了資料清理和去重,以提高基準測試的品質。
評估方法
本文採用了兩種方法來評估 LLM 的安全性:生成式方法和基於困惑度的方法。
評估結果
實驗結果表明,基於生成式方法評估 LLM 的安全性更為有效,可以更好地檢測中文場景下的不安全內容。此外,GPT-4 系列和 DeepSeek 系列在安全性方面表現優於其他模型,例如 Ziya2-13B-Chat 和 OPT 系列。同時,實驗結果也揭示了 LLM 在特定類別的安全問題上存在較低的安全性,例如身體健康和心理健康。
結論
ChineseSafe 為評估中文環境下 LLM 的安全性提供了一個重要的基準測試,並有助於推動開發更安全的 LLM,促進更安全的互聯網社群的發展。
統計資料
ChineseSafe 包含 205,034 個示例。
ChineseSafe 涵蓋 4 大類、10 個子類別的安全問題。
研究人員評估了 26 個大型語言模型,涵蓋不同的機構和參數規模。