核心概念
OCEAN框架利用知識圖譜作為外部知識源,通過將大型語言模型的思維鏈推理過程建模為馬可夫決策過程,並使用逆傾向得分方法評估其與知識圖譜推理路徑的一致性,從而實現對大型語言模型思維鏈能力的離線評估和優化。
論文概述
本篇論文提出了一種名為 OCEAN 的框架,旨在解決大型語言模型 (LLM) 中離線思維鏈評估和優化的挑戰。該框架的核心思想是利用知識圖譜作為外部知識源,通過將 LLM 的思維鏈推理過程建模為馬可夫決策過程 (MDP),並使用逆傾向得分 (IPS) 方法評估其與知識圖譜推理路徑的一致性,從而實現對 LLM 思維鏈能力的離線評估和優化。
研究背景
離線策略評估 (OPE) 在線上部署學習策略存在風險和不可行的情況下至關重要。近年來,基於人類反饋的強化學習 (RLHF) 已成為 LLM 對齊的主要方法,但其存在著高度依賴人類輸入、成本高昂等局限性。為了解決這些問題,研究人員開始探索利用知識圖譜作為輔助信息來增強 LLM 的推理能力。
OCEAN 框架
OCEAN 框架的核心組成部分包括:
**將思維鏈推理建模為 MDP:**將 LLM 生成思維鏈的過程視為一個 MDP,其中每個狀態由指令提示和先前生成的推理路徑組成,動作空間為從詞彙表中採樣的標記序列,策略則根據當前狀態生成下一步推理路徑。
**知識圖譜偏好建模:**通過從知識圖譜中採樣推理路徑,並使用 LLM(如 GPT-4)將其轉換為自然語言形式的思維鏈,從而構建一個知識圖譜偏好模型。
**KG-IPS 估計器:**提出了一種 KG-IPS 估計器,用於評估 LLM 生成思維鏈與知識圖譜偏好模型的一致性。該估計器考慮了知識圖譜策略反饋的影響,並證明了其無偏性和方差下界。
實驗結果
在多跳問答、知識密集型問答和常識推理等任務上的實驗結果表明,OCEAN 框架能夠有效地優化 LLM 的思維鏈推理能力,同時保持其在下游任務上的泛化性能。
主要貢獻
提出了一種用於 LLM 離線思維鏈評估和對齊的 OCEAN 框架。
開發了一種直接策略優化方法,可以利用知識圖譜的自動反饋有效地對齊 LLM。
通過構建一個將知識圖譜軌跡轉換為自然語言的策略,對知識圖譜偏好進行建模,並據此提供反饋。
對 KG-IPS 估計器的無偏性和方差下界進行了理論分析。
通過大量實驗驗證了 OCEAN 框架在對齊 LLM 思維鏈推理方面的有效性,以及其在下游任務上的泛化能力。