核心概念
大型語言模型在分佈外的任務上表現不佳,可能是因為缺乏抽象或符號表示。本文提出一種新的模塊化架構,通過路由策略和互信息最小化來誘導大型語言模型學習獨立因果機制,以提高其在抽象和因果推理任務上的性能和泛化能力。
摘要
本文探討了如何使用大型語言模型(LLM)作為獨立因果機制的模型。作者提出了一種新的模塊化架構 Independent Causal Language Models (ICLM),其中包含:
路由策略:將輸入重定向到特定的專門模塊,以增加每個模塊的專業化程度和減少分佈偏差。使用無監督的向量量化聚類方法實現路由。
互信息最小化:通過最小化域特定模塊和域不變模塊之間的互信息,誘導域不變模塊學習抽象表示,而域特定模塊學習特定領域知識。
輸出聚合:將激活的域特定模塊和域不變模塊的輸出進行聚合,產生最終輸出。
作者在抽象和因果推理任務上進行了實驗,結果表明ICLM在分佈外設置下的性能優於基線模型,並且個別模塊的性能甚至優於使用完美路由器的基線。進一步分析發現,儘管模塊之間的相關性在訓練過程中被降低,但在推理時仍然存在一定的相關性,表明LLM部分依賴於共享的域不變機制進行推理。
統計資料
大型語言模型在分佈外的抽象和因果推理任務上表現不佳,僅在分佈內的任務上表現良好。
使用ICLM架構可以提高LLM在分佈外任務上的性能。
ICLM中的域特定模塊和域不變模塊在推理時仍然存在一定相關性,表明LLM部分依賴於共享的域不變機制。
引述
"LLMs fall short on the same tasks in uncommon settings or with distribution shifts, exhibiting a lack of generalisation ability."
"Integrating these methods into the architecture of a Large Language Model could increase its robustness and out-of-distribution (o.o.d) generalisation."
"We show that such causal constraints can improve out-of-distribution performance on abstract and causal reasoning tasks."