核心概念
本文深入探討了大型語言模型(LLM)中普遍存在的「逆向詛咒」現象,發現其主要成因之一是訓練目標,特別是下一詞預測(NTP)目標,並提出了一種名為BICO的新型微調方法來緩解此問題。
近年來,大型語言模型(LLM)展現出強大的語言理解和生成能力,然而,研究發現LLM存在一個名為「逆向詛咒」的現象:當處理兩個實體a和b,以及它們之間的關係R和其逆關係R−1時,LLM在處理「aRb」形式的序列時表現出色,但在處理「bR−1a」時卻面臨挑戰,無論是在生成還是理解方面。例如,當詢問「湯姆·克魯斯的母親是誰?」時,GPT-4可以準確回答「瑪麗·李·菲佛」,但當被問及「瑪麗·李·菲佛的兒子是誰?」時,它卻無法提供令人滿意的答案。
本研究首次探討了「逆向詛咒」現象發生的原因,並將其歸因於訓練目標,特別是下一詞預測(NTP)目標。大多數因果語言模型都採用NTP作為訓練目標,這種目標使得模型只能根據前面的詞語預測下一個詞語,而無法直接考慮後面的詞語。因此,當模型在實體a始終出現在實體b之前的數據上進行訓練時,它會被優化以提高在給定a的情況下出現b的概率(即p(b|a)),而無法保證反向條件概率p(a|b)的準確性,從而導致「逆向詛咒」的發生。