核心概念
PRISM 是一種用於審查大型語言模型 (LLM) 偏見的新方法,它透過間接詢問模型並分析其生成的文本來評估其立場和偏見,相較於直接詢問模型的觀點,PRISM 能更有效地揭露模型潛在的偏見。
摘要
PRISM:一種審查大型語言模型偏見的方法
這篇研究論文介紹了一種名為 PRISM 的新方法,用於審查大型語言模型 (LLM) 中的偏見。鑑於 LLM 在生成潛在有害內容(例如幻覺和偏見)方面的風險,審查這些模型以確保負責任的人工智慧 (AI) 至關重要。
現有方法的局限性
現有的審查 LLM 偏見的方法通常依賴於直接詢問模型其觀點或偏好。然而,隨著 LLM 訓練的進步,它們現在可以隱藏、混淆甚至拒絕透露其在某些主題上的立場,從而使直接詢問變得無效。
PRISM 方法
PRISM 採用了一種不同的方法,它不直接詢問模型的觀點,而是透過基於任務的詢問提示來間接地引出其立場。該方法涉及以下步驟:
- 選擇一個調查工具,例如政治羅盤測試,其中包含許多需要李克特量表回答的陳述。
- 選擇要審查的 LLM(例如 ChatGPT、Gemini 等)。
- 使用提示為 LLM 模型分配一個角色。可以將角色設置為無,以獲得 LLM 的默認位置。
- 指示 LLM 寫一篇關於該陳述的文章。
- 委託評估員(AI 或人類)評估文章的立場。
- 匯總對調查工具的回答,以繪製 LLM 的默認位置。
- 使用不同的角色重複該過程,以涵蓋所用工具給出的維度。
- 繪製 LLM 默認和願意支持的立場窗口。
PRISM 的優勢
與直接詢問方法相比,PRISM 提供了許多優勢:
- 更可靠:PRISM 不會強迫 LLM 洩露其立場,而是要求模型生成文章,從而減少拒絕回答的可能性。
- 中立性估計:透過分析文章,PRISM 可以評估模型在呈現論點時的中立性。
- 多維度偏見分析:PRISM 可以使用李克特量表將偏好分解為多維向量,從而提供對模型偏見的更全面理解。
- 立場窗口映射:透過使用不同的角色,PRISM 可以繪製出模型願意支持的立場範圍。
- 可解釋性:模型生成的文章提供了其立場背後的推理,從而提高了可解釋性。
案例研究:政治偏見審查
為了證明 PRISM 的有效性,研究人員使用政治羅盤測試審查了 21 個 LLM 的政治偏見。結果顯示,大多數模型默認情況下都持有左傾和自由主義的立場,這與之前的研究結果一致。此外,PRISM 揭示了一些模型比其他模型更願意表達不同的觀點,而另一些模型則受到更多限制或更不願意偏離其默認立場。
未來方向
PRISM 為審查 LLM 開闢了許多有希望的途徑,例如:
- 檢查與特定角色相關的偏見(例如,LLM 如何看待不同性別、種族、職業等的立場)。
- 使用不同的工具評估不同的偏見和立場(例如,道德、宗教、性別等偏見)。
- 透過重複探測來分析偏見和立場隨時間/樣本的變化和差異。
- 研究如何透過更改提示和微調來減輕偏見。
總結
PRISM 是一種用於審查 LLM 偏見的有效且可靠的方法。透過間接探測模型並分析其生成的文章,PRISM 可以揭示模型的默認立場、願意支持的立場範圍以及呈現論點時的中立性。這項研究為未來在審查和減輕 LLM 偏見方面的研究奠定了基礎,這對於促進負責任的 AI 至關重要。
統計資料
研究人員審查了來自七家供應商的 21 個模型。
PRISM 平均產生 6% 的中立評級,而直接方法產生 9% 的中立評級。
PRISM 平均拒絕回答的比例為 1%,而直接方法為 13%。
人工智慧評估員與人類判斷的一致性為 88.6%,科恩卡帕係數為 0.774。
引述
"LLMs are becoming more restricted in what they can generate... this shift is a positive step toward promoting Responsible Artificial Intelligence (AI)."
"However, with the introduction of guardrails, fine-tuning, red teaming, etc., LLMs are trained to reduce the probability of producing output deemed undesirable, offensive, harmful, etc."
"Given the potential of LLMs to exhibit such behaviour, there is a clear and pressing need to be able to effectively audit such models to determine their positions and biases – and whether they are fit for use."
"Our proposed methodology, however, takes a different tack, and instead of directly asking the model to rate the statement, it more naturally asks the model to discuss the statement – and then the text generated is rated for how well it agrees (or not) with the proposition."
"Compared to the direct approach, PRISM is more reliable as it does not force the LLM to reveal its position – but instead asks the model to generate an essay."