核心概念
本文提出了一個將語言模型重新定義為廣義結構方程模型的框架,並利用該框架生成真實的反事實語句,以分析和評估語言模型中因果干預技術的效果。
摘要
本文探討了如何從語言模型中生成反事實語句,以深入理解和操控語言模型的因果生成機制。傳統上,研究人員主要依賴表徵手術等技術(例如模型消融或操控與特定概念相關的線性子空間)來干預這些模型。為了精確理解干預措施的影響,檢查反事實語句非常有用,例如,如果在特定干預措施後由模型生成,則給定的句子將如何出現。本文強調,反事實推理在概念上不同於干預,正如珀爾的因果層次結構所闡述的那樣。基於這一觀察,本文提出了一個通過將語言模型重新定義為廣義結構方程模型來生成真實字符串反事實的框架。模型使用 Gumbel-max 技巧。這允許我們對原始字符串及其由相同採樣噪聲實例產生的反事實進行聯合分佈建模。我們開發了一種基於後見之明的 Gumbel 採樣算法,該算法允許我們推斷潛在噪聲變量並生成觀察到的字符串的反事實。我們的實驗表明,該方法可以產生有意義的反事實,同時表明常用的干預技術具有相當大的不良副作用。
引言
語言模型 (LM) 可解釋性的研究經常借用珀爾因果演算的術語(Pearl,1989),例如,研究人員經常談論干預模型的參數和反事實地生成字符串。珀爾的框架區分了三個層次的因果推理(Shpitser & Pearl,2008)。關聯,第一個層次,屬於統計相關性,即在不與世界互動的情況下觀察數據中觀察到的模式。干預,第二個層次,屬於主動改變世界中的變量並在宏觀層面觀察其影響。反事實性,第三個層次,屬於想像如果過去的事件以不同的方式展開會發生什麼。然而,LM 文獻經常因果地使用這三個因果關係術語,有時並不精確,尤其是在反事實性方面,這仍然難以嚴格定義(Feder 等人,2022 年;Mueller,2024 年;Mueller 等人,2024 年)。在本文中,我們使用結構方程建模框架對 LM 中的反事實性給出了一個明確的定義。
語言模型作為廣義結構方程模型
我們首先簡要回顧一下結構方程建模,它提供了一個框架來討論生成過程的因果操作,並允許我們精確定義反事實的直觀概念。
結構方程模型 (SEM) 是一個元組 E = (S, F),其中 S 是一個簽名,F 是一組結構方程。簽名是一個元組 S = (U, V, R, I),其中:
U 是一組有限的外生隨機變量 {U1, ..., UN},
V 是一組有限的內生隨機變量 {V1, ..., VM},
R 為 U ∪ V 中的每個變量 X 分配其範圍,即它可以取的值集,以及
I 是一組干預措施。
通過將聯合概率分佈 P(U) 分配給外生變量,SEM 可以在 U ∪ V 上誘導一個概率分佈,我們將其表示為 PE。我們將外生變量的任何賦值稱為 SEM 的上下文。顧名思義,干預 I = X ← x ∈ I 將 SEM 轉換為另一個 SEM,其中結構方程 FV 被賦值 X ← x 代替;這個 SEM 表示為 EX←x。請注意,干預也可以是空的,在這種情況下,EX←x 是原始的 SEM。給定一個上下文,在干預 X ← x 下 SEM 的結果是滿足 SEM EX←x 的結構方程的所有 V 的賦值 v。在變量之間沒有循環依賴關係的 SEM 中,可以通過以與變量依賴關係一致的順序求解方程來確定結果。
干預措施對應於珀爾層次結構的第二個層次。它們允許我們操縱因果生成結構,從而從精確修改的 SEM 生成新的結果。然而,干預措施不會操縱單個結果,它們只允許我們對(不相關的)新觀察結果進行採樣。因果層次結構的第三個層次與 SEM 的回顧性修改有關,精確定義了調查如果 SEM 不同,即如果執行了干預,在採樣時會發生什麼的含義。這是用反事實分佈來形式化的。
反事實生成
將 LM 構建為 GSEM 允許我們在 LM 上使用廣泛的因果工具集。我們專注於為給定的觀察到的字符串生成反事實字符串,這些字符串在特定特徵上有所不同,但使用與先前觀察到的字符串相同的採樣噪聲生成。更準確地說,令 w = w1 · · · wT ∈ Σ∗ 是從由具有參數 eE 和 eb 的編碼器 hθ 誘導的 LM 中採樣的字符串,噪聲為 U。給定一個反事實編碼器 f hθ,其參數為 eE 和 eb,等式 (4) 告訴我們,w 的反事實可以採樣為:
f W_t = argmax_{w∈Σ} [(eE f h_θ(w_<t) + eb)_w + U_t(w)].
此過程會從聯合分佈 P(W = w, f W = ew) 中產生 Σ∗ 中的字符串對,即原始字符串 w 及其反事實 ew。反事實 ew 是從外生變量 U 的相同實例中採樣的。
在實踐中,反事實網絡 f hθ 是通過對 hθ 進行特定於特徵的修改而創建的,例如從表示 hθ(w) 中刪除性別信息。理想情況下,這些修改應該只影響目標特徵,而模型的其餘部分保持不變。這種效果應該在字符串級別上是可觀察到的,例如,如果手術旨在改變名詞的語法數,那麼這應該是原始字符串及其反事實之間的唯一區別。然而,如果沒有一個明確的反事實性定義,就很難評估表徵手術的影響,因為我們缺乏唯一區別是手術本身的字符串對。我們的框架通過確保字符串 w 及其反事實 ew 關於干預特徵形成最小對來解決這個問題。我們的實驗設置的一個關鍵目標是利用這個因果框架來評估各種表徵手術的穩定性。
然而,在評估模型干預措施的效果時,我們不僅僅關心最小對。另一個重要的問題是:如果給定的字符串是由反事實模型而不是原始模型生成的,它會是什麼樣子?要回答這個問題,需要了解產生原始字符串的外生噪聲。在我們的框架中,這需要推斷導致特定觀察到的字符串 w 的未觀察到的噪聲變量 U 的值(或更準確地說,是分佈)。一旦確定了 U 的特定結果,我們就可以生成相應的反事實。我們通過開發一種反轉圖 1b 所示因果過程的算法來解決推斷 U 的問題。
實驗
我們使用 GPT2-XL (Radford et al., 2018) 和 LLaMA3-8b (Touvron et al., 2023) 以及幾種完善的干預技術進行了實驗。這些技術包括 MEMIT (Meng et al., 2023)、使用線性控制的推理時干預 (Li et al., 2024; Singh et al., 2024) 和指令微調 (Touvron et al., 2023)。
在每種情況下,我們將干預之前的模型定義為原始模型,將干預後的模型定義為反事實模型。對於每個原始模型和反事實模型對,我們通過使用隨機選擇的英文維基百科句子的前五個單詞作為原始模型的提示來生成 500 個句子。我們通過使用多項式採樣(即從整個模型在詞彙表上的分佈中採樣)從模型中採樣,生成最多 25 個標記的延續。然後,我們使用算法 1 生成反事實句子。
結果
結果表明,即使是旨在“最小化”的干預措施,例如基於僅修改模型所有參數中一小部分的控制向量的干預措施,仍然會對模型的輸出產生相當大的因果影響,如從維基百科中提取的提示的延續中的語義漂移所證明的那樣。理想的干預措施是改變模型關於盧浮宮位置的知識,應該只改變那個位置。然而,在實踐中,即使是像 MEMIT 這樣只更新模型中單個矩陣中少量參數的干預措施,也會產生相當大的副作用。由於語言生成的自動回歸性質,標記選擇的微小變化會迅速累積,導致原始句子和反事實句子之間的語義差異很大。
結論
我們通過使用 Gumbel-max 技巧將 LM 重新定義為廣義結構方程模型,引入了一個從 LM 生成真實反事實的框架。這使我們能夠精確地對原始字符串和反事實字符串的聯合分佈進行建模,從而能夠在珀爾因果層次結構的最高層次上研究因果關係。我們的實驗表明,常用的干預技術,如知識編輯和線性控制,通常會在生成的文本中引起意想不到的語義變化,突出了實現精確和孤立干預的挑戰。這些觀察結果強調了需要更精細的方法,這些方法可以實現目標修改,同時對模型輸出的附帶變化最小。
統計資料
在男性到女性的轉變中,對數比率增加最多的詞是:“her”、“she”、“clinical”、“psychology”、“illinois”、“completed”、“bachelor's”、“urbana-champaign”、“(ucla)”、“urbana-champaign.”、“courses”、“interested”、“culture,”、“texas”、“literature”。
對數比率下降最多的詞是:“joining”、“michigan”、“between”、“specializes”、“prior”、“before”、“novel”、“purdue”、“cognitive”、“complex”、“european”、“journals”、“biostatistics”、“interest”、“graduate”。
60.0% 的反事實將羅馬列為盧浮宮的所在地,而 40.0% 仍然提到巴黎。