核心概念
即使經過人類回饋強化學習 (RLHF) 等方法調整,大型語言模型在職業決策方面仍然存在顯著的性別偏見,並且可能引入新的、與傳統性別刻板印象相矛盾的偏見。
摘要
書目資訊
Zhang, D., Zhang, Y., Bihani, G., & Rayz, J. (2024). Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes. arXiv preprint arXiv:2405.06687v2.
研究目標
本研究旨在探討大型語言模型 (LLM) 在職業決策過程中是否存在性別偏見,並分析其與人類偏見的關係。
研究方法
研究人員設計了一個多步驟性別刻板印象驗證框架,利用 O*NET 職業分類知識庫中與職業相關的屬性(技能、知識、能力),透過多輪問答的方式探測三種 LLM(RoBERTa-large、GPT-3.5-turbo 和 Llama2-70b-chat)的行為。研究人員分析了模型在不同情境和答案空間下對男性和女性求職者的偏好,並使用「確認度」和「一致性」兩個指標來評估模型的性別偏見和一致性。
主要發現
- 所有測試的 LLM 都表現出與人類偏見相似的性別刻板印象,但偏好程度不同。
- RoBERTa-large 的性別偏見較為系統性,額外資訊對其決策的影響不大。
- GPT-3.5-turbo 的決策容易受到額外資訊的影響,顯示 RLHF 在減少偏見方面有一定作用,但可能引入了新的、與傳統性別刻板印象相矛盾的偏見。
- Llama2-70b-chat 的表現介於 RoBERTa-large 和 GPT-3.5-turbo 之間。
主要結論
研究結果表明,現有的 LLM 仍然存在性別偏見,RLHF 等方法並不能完全消除這些偏見,甚至可能引入新的偏見。未來需要進一步研究更先進的技術來減輕 LLM 中的性別偏見。
研究意義
本研究提供了一個系統性的框架來調查和量化 LLM 中的性別偏見,有助於未來在減輕人類偏見和發展負責任的人工智慧方面的研究。
研究限制與未來方向
- 本研究僅探討了英語中的性別偏見,未來需要進一步研究其他語言中的性別偏見。
- 本研究僅關注性別偏見,未來可以擴展到其他類型的偏見,例如種族、國籍和宗教偏見。
- 本研究僅考慮了性別特定的名字,未來可以使用性別中立的名字來進一步探討 LLM 的偏見行為。
統計資料
GPT-3.5-turbo 模型在政治家和參議員等傳統上被視為男性主導的職業中,更傾向於女性求職者。
GPT-3.5-turbo 模型在藝術相關職業中,對女性求職者的偏好程度約為 0.5。
Llama2-70b-chat 模型在各個職業中對男性和女性求職者的偏好差異都不大。
引述
"Our experimental results show that most tested LLMs demonstrate different gender stereotypes by violating their previous neutral selections."
"The results of GPT-3.5-turbo and Llama2-70b-chat show some gender stereotypes are analogous to humans and some contradict traditional stereotypes."
"Our results suggest that gender biases still exist in the tested LLMs, and RLHF might not be the ultimate solution for gender bias mitigation in LLMs."