toplogo
登入

從語言模型生成反事實語句


核心概念
本文提出了一個將語言模型重新定義為廣義結構方程模型的框架,並利用該框架生成真實的反事實語句,以分析和評估語言模型中因果干預技術的效果。
摘要
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

摘要 本文探討了如何從語言模型中生成反事實語句,以深入理解和操控語言模型的因果生成機制。傳統上,研究人員主要依賴表徵手術等技術(例如模型消融或操控與特定概念相關的線性子空間)來干預這些模型。為了精確理解干預措施的影響,檢查反事實語句非常有用,例如,如果在特定干預措施後由模型生成,則給定的句子將如何出現。本文強調,反事實推理在概念上不同於干預,正如珀爾的因果層次結構所闡述的那樣。基於這一觀察,本文提出了一個通過將語言模型重新定義為廣義結構方程模型來生成真實字符串反事實的框架。模型使用 Gumbel-max 技巧。這允許我們對原始字符串及其由相同採樣噪聲實例產生的反事實進行聯合分佈建模。我們開發了一種基於後見之明的 Gumbel 採樣算法,該算法允許我們推斷潛在噪聲變量並生成觀察到的字符串的反事實。我們的實驗表明,該方法可以產生有意義的反事實,同時表明常用的干預技術具有相當大的不良副作用。 引言 語言模型 (LM) 可解釋性的研究經常借用珀爾因果演算的術語(Pearl,1989),例如,研究人員經常談論干預模型的參數和反事實地生成字符串。珀爾的框架區分了三個層次的因果推理(Shpitser & Pearl,2008)。關聯,第一個層次,屬於統計相關性,即在不與世界互動的情況下觀察數據中觀察到的模式。干預,第二個層次,屬於主動改變世界中的變量並在宏觀層面觀察其影響。反事實性,第三個層次,屬於想像如果過去的事件以不同的方式展開會發生什麼。然而,LM 文獻經常因果地使用這三個因果關係術語,有時並不精確,尤其是在反事實性方面,這仍然難以嚴格定義(Feder 等人,2022 年;Mueller,2024 年;Mueller 等人,2024 年)。在本文中,我們使用結構方程建模框架對 LM 中的反事實性給出了一個明確的定義。 語言模型作為廣義結構方程模型 我們首先簡要回顧一下結構方程建模,它提供了一個框架來討論生成過程的因果操作,並允許我們精確定義反事實的直觀概念。 結構方程模型 (SEM) 是一個元組 E = (S, F),其中 S 是一個簽名,F 是一組結構方程。簽名是一個元組 S = (U, V, R, I),其中: U 是一組有限的外生隨機變量 {U1, ..., UN}, V 是一組有限的內生隨機變量 {V1, ..., VM}, R 為 U ∪ V 中的每個變量 X 分配其範圍,即它可以取的值集,以及 I 是一組干預措施。 通過將聯合概率分佈 P(U) 分配給外生變量,SEM 可以在 U ∪ V 上誘導一個概率分佈,我們將其表示為 PE。我們將外生變量的任何賦值稱為 SEM 的上下文。顧名思義,干預 I = X ← x ∈ I 將 SEM 轉換為另一個 SEM,其中結構方程 FV 被賦值 X ← x 代替;這個 SEM 表示為 EX←x。請注意,干預也可以是空的,在這種情況下,EX←x 是原始的 SEM。給定一個上下文,在干預 X ← x 下 SEM 的結果是滿足 SEM EX←x 的結構方程的所有 V 的賦值 v。在變量之間沒有循環依賴關係的 SEM 中,可以通過以與變量依賴關係一致的順序求解方程來確定結果。 干預措施對應於珀爾層次結構的第二個層次。它們允許我們操縱因果生成結構,從而從精確修改的 SEM 生成新的結果。然而,干預措施不會操縱單個結果,它們只允許我們對(不相關的)新觀察結果進行採樣。因果層次結構的第三個層次與 SEM 的回顧性修改有關,精確定義了調查如果 SEM 不同,即如果執行了干預,在採樣時會發生什麼的含義。這是用反事實分佈來形式化的。 反事實生成 將 LM 構建為 GSEM 允許我們在 LM 上使用廣泛的因果工具集。我們專注於為給定的觀察到的字符串生成反事實字符串,這些字符串在特定特徵上有所不同,但使用與先前觀察到的字符串相同的採樣噪聲生成。更準確地說,令 w = w1 · · · wT ∈ Σ∗ 是從由具有參數 eE 和 eb 的編碼器 hθ 誘導的 LM 中採樣的字符串,噪聲為 U。給定一個反事實編碼器 f hθ,其參數為 eE 和 eb,等式 (4) 告訴我們,w 的反事實可以採樣為: f W_t = argmax_{w∈Σ} [(eE f h_θ(w_<t) + eb)_w + U_t(w)]. 此過程會從聯合分佈 P(W = w, f W = ew) 中產生 Σ∗ 中的字符串對,即原始字符串 w 及其反事實 ew。反事實 ew 是從外生變量 U 的相同實例中採樣的。 在實踐中,反事實網絡 f hθ 是通過對 hθ 進行特定於特徵的修改而創建的,例如從表示 hθ(w) 中刪除性別信息。理想情況下,這些修改應該只影響目標特徵,而模型的其餘部分保持不變。這種效果應該在字符串級別上是可觀察到的,例如,如果手術旨在改變名詞的語法數,那麼這應該是原始字符串及其反事實之間的唯一區別。然而,如果沒有一個明確的反事實性定義,就很難評估表徵手術的影響,因為我們缺乏唯一區別是手術本身的字符串對。我們的框架通過確保字符串 w 及其反事實 ew 關於干預特徵形成最小對來解決這個問題。我們的實驗設置的一個關鍵目標是利用這個因果框架來評估各種表徵手術的穩定性。 然而,在評估模型干預措施的效果時,我們不僅僅關心最小對。另一個重要的問題是:如果給定的字符串是由反事實模型而不是原始模型生成的,它會是什麼樣子?要回答這個問題,需要了解產生原始字符串的外生噪聲。在我們的框架中,這需要推斷導致特定觀察到的字符串 w 的未觀察到的噪聲變量 U 的值(或更準確地說,是分佈)。一旦確定了 U 的特定結果,我們就可以生成相應的反事實。我們通過開發一種反轉圖 1b 所示因果過程的算法來解決推斷 U 的問題。 實驗 我們使用 GPT2-XL (Radford et al., 2018) 和 LLaMA3-8b (Touvron et al., 2023) 以及幾種完善的干預技術進行了實驗。這些技術包括 MEMIT (Meng et al., 2023)、使用線性控制的推理時干預 (Li et al., 2024; Singh et al., 2024) 和指令微調 (Touvron et al., 2023)。 在每種情況下,我們將干預之前的模型定義為原始模型,將干預後的模型定義為反事實模型。對於每個原始模型和反事實模型對,我們通過使用隨機選擇的英文維基百科句子的前五個單詞作為原始模型的提示來生成 500 個句子。我們通過使用多項式採樣(即從整個模型在詞彙表上的分佈中採樣)從模型中採樣,生成最多 25 個標記的延續。然後,我們使用算法 1 生成反事實句子。 結果 結果表明,即使是旨在“最小化”的干預措施,例如基於僅修改模型所有參數中一小部分的控制向量的干預措施,仍然會對模型的輸出產生相當大的因果影響,如從維基百科中提取的提示的延續中的語義漂移所證明的那樣。理想的干預措施是改變模型關於盧浮宮位置的知識,應該只改變那個位置。然而,在實踐中,即使是像 MEMIT 這樣只更新模型中單個矩陣中少量參數的干預措施,也會產生相當大的副作用。由於語言生成的自動回歸性質,標記選擇的微小變化會迅速累積,導致原始句子和反事實句子之間的語義差異很大。 結論 我們通過使用 Gumbel-max 技巧將 LM 重新定義為廣義結構方程模型,引入了一個從 LM 生成真實反事實的框架。這使我們能夠精確地對原始字符串和反事實字符串的聯合分佈進行建模,從而能夠在珀爾因果層次結構的最高層次上研究因果關係。我們的實驗表明,常用的干預技術,如知識編輯和線性控制,通常會在生成的文本中引起意想不到的語義變化,突出了實現精確和孤立干預的挑戰。這些觀察結果強調了需要更精細的方法,這些方法可以實現目標修改,同時對模型輸出的附帶變化最小。
統計資料
在男性到女性的轉變中,對數比率增加最多的詞是:“her”、“she”、“clinical”、“psychology”、“illinois”、“completed”、“bachelor's”、“urbana-champaign”、“(ucla)”、“urbana-champaign.”、“courses”、“interested”、“culture,”、“texas”、“literature”。 對數比率下降最多的詞是:“joining”、“michigan”、“between”、“specializes”、“prior”、“before”、“novel”、“purdue”、“cognitive”、“complex”、“european”、“journals”、“biostatistics”、“interest”、“graduate”。 60.0% 的反事實將羅馬列為盧浮宮的所在地,而 40.0% 仍然提到巴黎。

從以下內容提煉的關鍵洞見

by Shau... arxiv.org 11-12-2024

https://arxiv.org/pdf/2411.07180.pdf
Counterfactual Generation from Language Models

深入探究

如何進一步改進反事實生成技術,以減少干預措施的副作用並提高其精確度?

改善反事實生成技術,減少干預副作用並提高精確度,可以從以下幾個方面著手: 1. 更精確的干預技術: 開發更細粒度的表徵手術方法: 現有的表徵手術方法,例如線性轉換,往往會影響整個表徵空間,導致非預期的副作用。開發更細粒度的表徵手術方法,例如只修改與特定概念相關的神經元或參數,可以減少對模型其他部分的影響,提高干預的精確度。 基於因果關係的模型編輯: 現有的模型編輯方法,例如知識編輯,主要關注於改變模型的特定知識,而較少考慮這些知識與模型其他部分的因果關係。開發基於因果關係的模型編輯方法,可以更精確地控制模型的行為,減少非預期的副作用。 2. 更精確的反事實生成算法: 探索更精確的噪聲推斷方法: 現有的反事實生成算法,例如基於 Gumbel-max 技巧的方法,在推斷噪聲變數時存在一定的誤差。探索更精確的噪聲推斷方法,例如基於變分自编码器的方法,可以提高反事實生成的準確性。 結合語義和句法約束: 現有的反事實生成算法主要關注於保持原始語句的語義,而較少考慮句法約束。結合語義和句法約束,例如使用語法校正模型,可以生成更自然、更流暢的反事實語句。 3. 更全面的評估指標: 開發更精確的副作用評估指標: 現有的副作用評估指標,例如最長公共前綴長度,無法完全反映干預措施對模型輸出的影響。開發更精確的副作用評估指標,例如基於語義相似度的指標,可以更全面地評估干預措施的副作用。 關注反事實語句的多樣性和可控性: 除了準確性之外,反事實語句的多樣性和可控性也是重要的評估指標。開發相應的評估指標,可以鼓勵生成更豐富、更可控的反事實語句。

是否可以將該框架應用於其他類型的文本生成任務,例如機器翻譯或摘要?

是的,該框架可以應用於其他類型的文本生成任務,例如機器翻譯或摘要。其核心思想是將文本生成過程建模為一個廣義結構方程模型 (GSEM),並利用 Gumbel-max 技巧將確定性計算和隨機採樣分離。 以機器翻譯為例,可以將源語言句子和目標語言句子分別視為 GSEM 中的兩個變數,並利用編碼器-解碼器模型建立它們之間的關係。通過對編碼器或解碼器進行干預,例如修改特定詞彙的嵌入向量,可以生成反事實的目標語言句子,從而探究模型的翻譯機制。 同樣地,對於文本摘要任務,可以將原始文本和摘要分別視為 GSEM 中的兩個變數,並利用 seq2seq 模型建立它們之間的關係。通過對模型進行干預,例如修改注意力機制,可以生成反事實的摘要,從而探究模型的摘要生成機制。 需要注意的是,將該框架應用於其他文本生成任務時,需要根據具體任務的特点进行相应的调整和优化。例如,需要设计合适的干预方法和评估指标,以确保生成的文本符合任务要求。

從哲學角度來看,語言模型生成的反事實語句是否真的反映了現實世界中的因果關係?

從哲學角度來看,語言模型生成的反事實語句是否真的反映了現實世界中的因果關係是一個複雜且值得探討的問題。 支持者認為: 語言模型通過學習大量的文本數據,可以捕捉到語言中隱含的因果關係。例如,模型可以學習到“下雨”和“地面濕”之間的關聯,並生成“如果今天沒有下雨,地面就不會濕”這樣的反事實語句。 反事實語句的生成過程可以被視為一種模擬推理,模型通過操縱內部的表徵來模擬現實世界中可能發生的情況。 反對者則認為: 語言模型只是學習了語言的統計規律,並不具備真正的因果推理能力。它們生成的“因果關係”只是數據中的相關性,並不一定反映現實世界中的因果機制。 反事實語句的生成過程缺乏對現實世界的真實理解和經驗,模型無法像人類一樣進行基於常識和背景知識的推理。 總體而言: 語言模型生成的反事實語句可以提供一種探索語言中因果關係的工具,但不能將其等同於對現實世界因果關係的真實反映。模型生成的因果關係更像是數據驅動的“擬因果關係”,其可靠性和可解釋性仍需進一步探討。 未來發展方向: 開發更具備因果推理能力的語言模型,例如結合因果圖或因果邏輯的模型。 探索如何將語言模型與其他知識表示方法相結合,例如知識圖譜,以增強模型的因果推理能力。 開發更全面的評估方法,以評估語言模型生成的反事實語句是否真的反映了現實世界中的因果關係。
0
star