核心概念
大型語言模型應該學會在特定情境下拒絕不適當的使用者請求,以確保安全性和避免傳播錯誤資訊,這需要新的分類法、評估方法和訓練策略。
這篇研究論文探討大型語言模型(LLM)在面對不應直接回答的使用者請求時,如何適當地拒絕並提供合適的回應。
研究目標
本研究旨在探討現有LLM在面對需要拒絕的請求時的表現,以及如何訓練模型在不損害其整體性能的情況下,適當地拒絕不適當的請求。
方法
研究人員開發了一個名為「情境不順從性分類法」(NONCOMPLIANCE Taxonomy),將LLM應該拒絕的請求分為五大類:不完整請求、不確定請求、不支援請求、擬人化請求和具有安全疑慮的請求。
基於該分類法,研究人員創建了一個名為COCONOT的資料集,其中包含需要拒絕的請求和對應的適當回應,以及一個用於評估模型是否過度拒絕的對比資料集。
研究人員使用COCONOT評估了多個最先進的LLM,並探索了不同的訓練策略,包括監督式微調、低秩適配器(LoRA)微調和偏好調整,以增強模型的拒絕能力。
主要發現
評估結果顯示,許多現有的LLM,即使是最先進的模型,在面對需要拒絕的請求時,仍然表現出很高的順從性,特別是在不完整請求和不支援請求方面。
研究發現,僅僅指示模型不要順從並不足以誘導適當的拒絕行為,而需要特定的訓練策略。
實驗結果表明,使用LoRA微調可以在提高模型拒絕能力的同時,保持其整體性能,並且使用對比資料集進行偏好調整可以有效減少模型的過度拒絕行為。
意義
這項研究強調了開發更全面和細緻的拒絕機制的重要性,以提高LLM的安全性、可靠性和使用者體驗。
COCONOT資料集和提出的訓練策略為未來的LLM拒絕研究提供了寶貴的資源和方向。
局限與未來研究方向
COCONOT資料集主要依賴GPT模型合成生成,可能存在偏差和噪聲。
未來研究可以探索利用模型自身的認知意識來提高拒絕能力,並評估訓練方法對抗「越獄」策略的穩健性。
统计
GPT-4 在「不完整請求」和「不支援請求」類別中錯誤地順從了高達 30% 的請求。
Llama-2、Llama-3 和 Tulu-2 的整體拒絕率隨著模型規模的增加而降低。
與僅接受指令微調的 Tulu-2 模型相比,經過偏好調整的 Tulu-2 模型在整體拒絕表現上更出色。