toplogo
Giriş Yap

超越安全套裝:審視「有用且無害」資料集的潛在問題


Temel Kavramlar
雖然「有用且無害」資料集旨在提高大型語言模型的安全性,但其設計和執行上的缺陷可能導致新的危害,特別是加劇對特定族群的偏見,凸顯出在模型訓練中納入更細緻入微、情境感知的安全措施的必要性。
Özet

文獻回顧

  • 近年來,從人類回饋中學習 (LHF) 已成為一種普遍的策略,用於在保留大型語言模型 (LLM) 功能的同時減輕其危害。
  • Anthropic 的「有用且無害」(HH) 資料集是這一趨勢的典型例子,該資料集旨在減輕安全風險,已被引用超過 1000 次,並用於訓練超過 200 個模型。
  • 然而,最近的研究表明,使用具有 HH 偏好的 LHF 訓練的模型更有可能表現出與這些偏好相關的安全漏洞,以及它們造成的取捨(例如,更安全的模型不太可能回應查詢,使其幫助性降低,反之亦然)。

HH 資料集審查

探索性分析
  • HH 資料集是通過合併兩個不同的資料集創建的:「有用」部分和「無害」部分。
  • 「有用」部分約佔資料的 73%,並且平均包含的詞彙量也多於「無害」部分。
  • 兩個部分之間的詞彙分佈存在顯著差異:「有用」部分中的許多條目都與食物有關(例如,「牛至」、「南瓜」),而「無害」部分則傾向於使用誹謗和與犯罪相關的詞彙(例如,「N 字頭」、「F 開頭的髒話」)。
  • 主題建模分析表明,「有用」部分的主題圍繞烹飪、歷史或節日展開,而在「無害」部分,對話則圍繞數位盜版、人際關係和酒精等主題展開。
  • 兩個資料集中身份詞彙的分佈也存在差異,例如,「老年人」、「美國人」和「年輕人」等詞彙在「有用」部分中過度呈現,而「穆斯林」和「黑人」則在「無害」部分中出現得更頻繁。
無害性概念化
  • 「無害」資料集是通過紅隊測試創建的,但對於什麼構成無害互動沒有明確的指導方針。
  • 紅隊測試提示涵蓋了廣泛的主題,包括種族主義語言、盜竊、其他非法活動、惡意惡作劇、冒犯性語言、性內容、隱私、暴力、毒品和無關內容。
  • 然而,並非所有提示都與現實生活中的危害相對應,這凸顯了資料集中「無害性」概念缺乏一致性。
  • 對受測者偏好的模型回應進行的手動註釋顯示,只有 11.8% 的對話被歸類為「可接受」(即模型出於安全原因拒絕參與或提供有關對話主題為何有害的有用解釋)。
  • 相反,44.5% 的對話被歸類為「無用」(即模型無法執行,例如輸出無意義的答案或重複查詢),而 43.7% 的對話被歸類為「有害」(即包含回答紅隊測試查詢的明確指示或對少數群體的有害觀點)。

從 HH 資料集中學習

訓練資料集
  • 本研究實驗了三種 HH 資料集變體:「僅限有用」(僅包含「有用」部分的對話)、「完整 HH」(使用未經修改的完整 HH 資料集)和「過濾後的 HH」(從原始 HH 資料集中移除包含 50 個與歧視相關的身份詞彙的樣本)。
實驗結果
  • 使用 HH 資料集進行安全訓練會顯著提高模型的安全性,因為在訓練後,模型拒絕回答不安全提示的比率更高。
  • 然而,接受過安全訓練的模型也更有可能輸出無用的回應,例如「我很抱歉,我不明白你在問什麼」。
  • 針對安全提示的拒絕率也有所提高,這可能是由於模型過度擬合了「無害」部分中過度呈現的特定關鍵字。
  • 在「過濾後的 HH」資料集上訓練的模型對包含身份詞彙的安全提示表現出較低的拒絕率,這表明使用 HH 資料集進行安全減輕可能會導致身份群體與毒性之間產生虛假的關聯,並導致不同的安全行為。

HH 資料集對社群的影響

  • 對引用 Bai 等人(2022)著作的 100 篇最相關論文的調查顯示,不到一半的論文是關於安全的。
  • 大多數論文主要將該資料集用作人類偏好優化的基準,或作為 LHF 的背景工作。
  • 雖然 Bai 等人(2022)提到了「有用性」和「無害性」之間的潛在取捨,但這一資訊在文獻中逐漸消失,取捨被視為一種必然性,而與資料來源無關。
  • 現有文獻經常將 HH 取捨作為安全防護措施失敗的理由,而這些失敗與這些更高層次的觀念衝突沒有直接關係。

總結

  • 本研究對 HH 資料集進行了多方面的審查,揭示了其局限性,以及更廣泛地說,將學習與 HH 偏好結合使用的局限性。
  • 這些局限性包括品質問題,以及未能將「無害性」概念化(即「安全套裝」)。
  • 作者強調了採用社會技術方法來減少危害的重要性,並改變圍繞安全取捨的說法。
edit_icon

Özeti Özelleştir

edit_icon

Yapay Zeka ile Yeniden Yaz

edit_icon

Alıntıları Oluştur

translate_icon

Kaynağı Çevir

visual_icon

Zihin Haritası Oluştur

visit_icon

Kaynak

İstatistikler
「有用」部分約佔資料的 73%,並且平均包含的詞彙量也多於「無害」部分。 只有 17% 的紅隊測試提示具有明確的毒性。 只有 11.8% 的註釋對話被歸類為「可接受」。 44.5% 的對話被歸類為「無用」。 43.7% 的對話被歸類為「有害」。 在「過濾後的 HH」資料集上訓練的模型對包含身份詞彙的安全提示表現出較低的拒絕率。
Alıntılar
「雖然 Bai 等人(2022)有意選擇不提供對什麼構成有害對話的明確定義,以促進更多樣化的輸出,但我們認為這種模糊性可能會在未來造成額外的問題。」 「涵蓋如此廣泛的安全主題而不加區分可能不是減輕危害的最合適方法,因為不同的問題需要不同的解決方案。」 「將這些原則視為相互競爭的目標,LHF 與 HH 加劇了這樣一種說法,即安全必須以犧牲效用為代價,而不是促進效用。」 「效用和安全並非天生就相互矛盾;相反,一個好的系統是對每個人都能正常運作的系統。」

Önemli Bilgiler Şuradan Elde Edildi

by Khao... : arxiv.org 11-14-2024

https://arxiv.org/pdf/2411.08243.pdf
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset

Daha Derin Sorular

如何設計更全面、更細緻入微的安全基準測試,以解決 LLM 中廣泛的潛在危害?

為了設計更全面、更細緻入微的安全基準測試,需要解決 LLM 中廣泛的潛在危害,可以參考以下幾點: 超越「安全捆綁」思維: 現有的安全基準測試,例如文中提到的 HH 資料集,往往將各種不同的危害類型 (例如:隱私洩露、犯罪資訊、歧視言論) 籠統地歸類為「有害」。這種「安全捆綁」的思維方式容易導致評估過於簡化,忽略了不同危害類型之間的差異和各自的嚴重程度。 解決方案: 開發針對特定危害類型的專門測試集。例如,針對歧視言論,可以設計一個測試集,其中包含各種涉及不同身份群體和敏感屬性的對話情境,並根據言論的嚴重程度進行分級。 關注「相對無害」的輸出: 許多 LLM 在面對安全測試時,會選擇輸出一些看似「無害」,但實際上卻是迴避問題、毫無幫助的回應。例如,不斷重複使用者的問題、詢問更多資訊、或者輸出一些毫無意義的字元。 解決方案: 在評估模型輸出時,除了判斷其是否「有害」之外,還需要評估其是否有實質的幫助。可以引入「有用性」指標,例如:資訊量、相關性、完成任務的能力等,來綜合評估模型的安全性。 考量不同社會文化背景: 現有的安全基準測試大多基於西方社會的價值觀和道德標準,而忽略了不同文化背景下人們對「安全」和「危害」的理解差異。 解決方案: 開發跨文化、多語言的安全基準測試集,並邀請來自不同文化背景的標註者參與評估。 動態更新測試集: 隨著 LLM 技術的發展和應用場景的擴展,新的危害類型會不斷湧現。 解決方案: 建立動態更新機制,不斷收集新的危害案例,並將其納入安全基準測試集中。 總之,設計更全面、更細緻入微的安全基準測試需要我們摒棄「安全捆綁」的思維方式,關注不同危害類型的特殊性,並考量不同社會文化背景下的差異。同時,我們需要不斷更新測試集,以應對 LLM 技術發展帶來的新的安全挑戰。

能否將「有用性」和「無害性」視為相輔相成的目標,而不是相互競爭的目標,從而開發出既安全又有用的 LLM?

將「有用性」和「無害性」視為相輔相成的目標,而非相互競爭的目標,是完全可行的,並且是開發既安全又有用的 LLM 的關鍵所在。以下是一些可行的思路: 從根本上改變訓練目標: 現有的 LLM 訓練方式往往將「預測下一個詞」作為主要目標,這導致模型更關注語言的流暢性和語法正確性,而忽略了內容的安全性。 解決方案: 在訓練過程中引入更豐富的目標,例如:事實正確性、邏輯一致性、價值觀導向等。可以通過設計新的訓練任務、調整損失函數、引入強化學習等方式來實現。 構建更優質的訓練資料: 現有的 LLM 訓練資料大多來自網際網路,其中不可避免地包含大量有害資訊。 解決方案: 構建高質量的訓練資料集,其中包含豐富、準確、客觀、正面的資訊。可以通過人工篩選、專家編寫、機器輔助生成等方式來構建。 開發更精細的評估指標: 現有的 LLM 評估指標大多關注語言的流暢性和任務完成度,而忽略了內容的安全性。 解決方案: 開發更精細的評估指標,將「有用性」和「無害性」納入其中。例如,可以設計指標來評估模型的公平性、透明度、可解釋性等。 加強人機協作: 在 LLM 的開發和應用過程中,需要加強人機協作,讓人參與到模型的訓練、評估、修正等環節中。 解決方案: 開發人機互動介面,讓使用者可以方便地對模型的輸出進行反饋和修正。同時,可以建立機制,讓使用者參與到模型的訓練資料構建和評估指標設計中。 總之,開發既安全又有用的 LLM 需要我們從根本上改變現有的訓練和評估方式,將「有用性」和「無害性」視為相輔相成的目標,並加強人機協作,共同打造安全、可靠、可信賴的 AI 技術。

隨著 LLM 在社會中的普及,我們如何促進跨學科合作,以解決與其部署相關的倫理和社會技術挑戰?

隨著 LLM 在社會中的普及,解決其部署相關的倫理和社會技術挑戰需要跨學科的合作,以下是一些促進合作的建議: 建立跨學科研究平台: 鼓勵來自不同學科領域的專家,例如:電腦科學、社會學、心理學、法律學、倫理學等,共同參與 LLM 的研究和開發。 具體措施: 可以建立線上論壇、舉辦研討會、設立聯合研究項目等,促進不同學科背景的專家交流思想、分享經驗、共同解決問題。 制定 LLM 倫理準則: 邀請倫理學家、法律專家、社會學家等,共同制定 LLM 的倫理準則,為 LLM 的開發和應用提供倫理指導。 具體措施: 可以參考現有的 AI 倫理準則,例如:歐盟的《人工智能倫理準則》、OECD 的《人工智能原則》等,結合 LLM 的特點,制定更具體、可操作的倫理準則。 加強公眾教育: 向公眾普及 LLM 的相關知識,提高公眾對 LLM 的倫理和社會影響的認識,促進公眾參與 LLM 的治理。 具體措施: 可以通過媒體報導、科普講座、線上課程等方式,向公眾介紹 LLM 的基本原理、應用場景、潛在風險以及倫理挑戰,讓公眾了解 LLM 的兩面性,避免對 LLM 產生不切實際的期望或恐懼。 建立監管機制: 政府部門需要積極介入,建立 LLM 的監管機制,規範 LLM 的開發和應用,防範 LLM 的潛在風險。 具體措施: 可以借鑒現有的網路安全法、資料隱私保護法等法律法規,制定針對 LLM 的專門法律法規,明確 LLM 開發者的責任和義務,保護使用者權益,維護社會公共利益。 總之,解決 LLM 部署相關的倫理和社會技術挑戰需要各方共同努力,促進跨學科合作,加強溝通交流,共同探索 LLM 的發展方向,讓 LLM 真正造福人類社會。
0
star