核心概念
大型語言模型 (LLM) 在測試階段容易受到輸入中虛假特徵的影響,而基於因果推論的「情境外提示」(OOC) 技術可以有效提高 LLM 預測的公平性和穩健性。
本研究論文探討了如何提高大型語言模型 (LLM) 在測試階段預測的公平性和穩健性。
研究背景
近年來,LLM 被廣泛應用於各種決策制定場景,但由於訓練數據中可能存在偏差,LLM 的預測結果也可能存在社會歧視或對輸入中的虛假特徵過於敏感的問題。由於訓練 LLM 的成本高昂,只有少數資源豐富的企業才能進行,因此開發無需重新訓練的測試階段解決方案至關重要。
現有方法的局限性
現有的測試階段解決方案主要依賴於在提示中加入指令,試圖影響 LLM 的預測結果,例如要求 LLM 保持公平或避免刻板印象。然而,這種方法的挑戰在於它隱含地依賴於 LLM 對偏差的理解,而 LLM 對偏差的定義可能與人類不同。
因果推論和分層不變性
本研究採用因果推論的視角來定義公平性和穩健性,並提出了一種稱為「分層不變性」的概念。分層不變性要求在對虛假或受保護屬性進行干預時,預測結果應保持穩定。與傳統的反事實不變性相比,分層不變性更具實用性,並且可以從觀察數據中進行測量。
情境外提示 (OOC) 技術
為了在測試階段實現分層不變性,本研究提出了一種稱為「情境外提示」(OOC) 的零樣本學習方法。OOC 技術利用用戶對任務的因果知識,通過以下步驟模擬分層反事實數據增強:
情境模糊化: 使用角色扮演提示,從輸入中移除與虛假或受保護屬性相關的資訊。
情境添加: 將隨機選擇的新情境資訊添加到模糊化的輸入中。
預測和聚合: 使用 LLM 對轉換後的輸入進行預測,並聚合多個預測結果以提高準確性。
實驗結果
實驗結果表明,OOC 提示技術能夠在多個真實世界的文本分類任務中顯著提高 LLM 預測的分層不變性,同時保持預測性能。此外,隨著分層條件集包含更多關於外生變量的資訊,OOC 技術的預測結果也更接近於反事實不變性,表明其在個體層面上也能提高公平性和穩健性。
總結
本研究提出了分層不變性作為 LLM 測試階段公平性和穩健性的核心概念,並開發了 OOC 提示技術來實現分層不變性。實驗結果證明了 OOC 技術在提高 LLM 預測公平性和穩健性方面的有效性。
統計資料
OOC 在 27 組任務和模型中的 23 組中優於標準提示。
OOC 在 27 組任務中的 20 組中提供了最大的改進。
OOC 平均而言,對原始預測性能的影響不超過 0.05,最差情況下在 Toxic Comments 數據集中使用 gpt-4-turbo 時影響為 0.10。