核心概念
大型語言模型 (LLM) 在角色扮演過程中會表現出顯著的社會偏見,突顯了在將其部署到真實世界應用程序之前對其進行公平性測試的必要性。
研究背景
大型語言模型 (LLM) 已成為現代語言驅動型應用程序的基礎,深刻影響著日常生活。利用其潛力的關鍵技術之一是角色扮演,LLM 模擬不同的角色以增強其在現實世界中的效用。然而,儘管研究強調了 LLM 輸出中存在社會偏見,但目前尚不清楚這些偏見在角色扮演場景中是否以及在何種程度上出現。
BiasLens 框架
為了解決這個問題,本文介紹了 BiasLens,這是一個專為系統地揭露 LLM 在角色扮演過程中的偏見而設計的公平性測試框架。BiasLens 由兩個主要組件組成:測試輸入生成(生成觸發偏見的問題)和測試預言機設計(識別有偏見的回答)。
測試輸入生成
在測試輸入生成方面,BiasLens 首先利用 LLM 生成涵蓋 11 個不同人口統計屬性的 550 個社會角色,形成了一個具有代表性的角色集,用於公平性測試。對於每個角色,BiasLens 會自動生成 60 個問題,這些問題有可能在 LLM 扮演該角色時引發有偏見的回答。這些問題涵蓋了三種常見的格式,包括是非題、多選題和開放式問題,以全面評估偏見觸發因素。總共生成了 33,000 個問題,用於提示 LLM 扮演特定角色並做出相應的回答。
測試預言機生成
在測試預言機生成方面,BiasLens 採用了針對不同問題類型的基於規則和基於 LLM 的策略組合,並通過嚴格的人工評估驗證了這些識別的可靠性。
實證研究
使用生成的問題作為基準,本文對 OpenAI、Mistral AI、Meta、阿里巴巴和 DeepSeek 發布的六個先進 LLM 進行了廣泛的評估。這些模型代表了開源和閉源模型,它們在現實世界的應用中得到廣泛使用,並且在模型規模上有很大差異。為了確保結果的嚴謹性,每個問題都會向每個 LLM 提出三次,並且只有在三次中出現兩次以上的情況下,才會將有偏見的回答分類。儘管採用了這種嚴格的標準,但我們的基準測試在這些 LLM 中總共發現了 72,716 個有偏見的回答,其中每個模型產生了 7,754 到 16,963 個有偏見的回答。當我們從基準測試中刪除角色扮演陳述時,所有六個 LLM 的有偏見回答都有所減少,平均減少了 24.3%。這進一步表明,角色扮演會在 LLM 輸出中引入額外的社會偏見,突出了專門在角色扮演環境中進行公平性測試的必要性。
主要貢獻
總之,本文的主要貢獻如下:
定制的測試框架: 引入了 BiasLens,這是一個專為揭露 LLM 在角色扮演過程中的偏見而設計的自動化公平性測試框架。
廣泛的實證研究: 使用 BiasLens 生成的 33,000 個問題,對六個先進的 LLM 進行了大規模實證評估,並揭露了總共 72,716 個有偏見的回答。
開放基準和資源: 公開發布了基準測試數據集、腳本和實驗結果,以促進 BiasLens 的採用並鼓勵進一步的研究。
研究結果
BiasLens 有效地揭示了六個先進 LLM 中的 72,716 個有偏見的回答,其中每個 LLM 產生了 7,754 到 16,963 個有偏見的回答。此外,BiasLens 成功地觸發了所有三種類型問題和所有 11 個人口統計屬性的有偏見回答,其中與種族和文化相關的角色的偏見程度最高。這一發現引發了一個嚴重的擔憂,即 LLM 的廣泛採用可能會放大社會偏見,並強化與這些人口統計角色相關的刻板印象。
統計資料
BiasLens 在測試的 LLM 中總共發現了 72,716 個有偏見的回答。
每個 LLM 產生了 7,754 到 16,963 個有偏見的回答。
當從基準測試中刪除角色扮演陳述時,所有六個 LLM 的有偏見回答都有所減少,平均減少了 24.3%。
種族和文化屬性表現出最高的偏見程度,平均有偏見的回答數量分別為 1,400 和 1,372。
94.6% 的是非題的無偏見答案是「否」。
94.4% 的選擇題的無偏見答案是最後一個選項。
對於為什麼問題,人工標記結果與三個評委 LLM 的多數投票結果一致的比例為 83.9%。