核心概念
本文提出了一種新的預訓練方法,稱為未來詞彙預測 (FTP),旨在改進傳統語言模型在處理長序列文本時出現的主題漂移問題,並增強模型對未來文本語義的理解和生成能力。
摘要
論文資訊
- 標題:未來詞彙預測:基於每個詞彙語義狀態向量的因果語言建模,用於多詞彙預測
- 作者:Nicholas Walker
- 機構:Iprova SA
研究背景
現有的因果自回歸大型語言模型 (LLM) 通常基於單個詞彙的預測進行訓練,導致模型在生成長序列文本時容易出現主題漂移。人類在理解語言時會預測多個未來詞彙,而非僅僅一個。
研究方法
本文提出了一種新的預訓練方法,稱為未來詞彙預測 (FTP)。FTP 模型使用大型 Transformer 編碼器為每個詞彙位置生成頂層嵌入向量,並將其線性投影到一個「偽序列」。接著,一個小型 Transformer 解碼器通過交叉注意力機制處理該「偽序列」,以預測從該位置開始的接下來 N 個詞彙。
實驗結果
- 與標準 GPT 模型相比,FTP 模型的頂層嵌入向量在文本序列中變化更為平滑。
- FTP 模型生成的文本在主題連貫性方面優於標準 GPT 模型。
- 在文本分類任務中,FTP 模型的嵌入向量能更好地表示文本主題。
- 在一個複雜的編碼問題中,FTP 模型的表現明顯優於 GPT 模型。
研究結論
FTP 模型通過預測多個未來詞彙,可以生成更連貫、更符合主題的文本。這種方法有助於改進現有語言模型的性能,並為自然語言處理領域帶來新的思路。
統計資料
FTP 模型的解碼器預測未來 8 個詞彙 (N=8)。
「偽序列」的長度設定為 12 (Seq=12)。
訓練過程中,未來詞彙的損失根據其距離使用 gamma 因子 (gamma=0.8) 進行指數遞減加權。
在長文本生成任務中,使用 SentenceTranformer (all-MiniLM-L12-v2) 提取句子嵌入向量,並計算生成句子與提示句之間的餘弦相似度。
在編碼語言模型實驗中,使用了一個包含一百萬個程序的訓練集和一個包含一萬個程序的測試集。
引述
"However, a single next token is not always representative of the semantics of the text needed to be generated, and as a result these models are prone to topic drift, particularly over longer sequences of token generation."
"By forcing a LM to generate a more consistent and token-independent embedding of future text, it appears that the LM better learns internal models which represent a generally smoothly changing ‘world state’ from which the next token(s) is determined."