Conceptos Básicos
本文證明了完全遞迴神經網路,包括 RNN、LSTM、GRU 和線性遞迴網路,可以作為通用的上下文逼近器,透過適當的提示,它們可以逼近任何連續函數或離散序列映射。
本文研究了完全遞迴神經網路模型在上下文學習中的通用逼近能力。傳統上,機器學習模型需要在特定任務的數據集上進行訓練或微調才能解決該任務。然而,大型基礎模型展現了在沒有針對特定任務進行微調或訓練的情況下解決新任務的能力,通常只需以正確的方式提示它們即可。這使得提示成為引導模型朝向特定行為或任務的關鍵方法。
上下文學習,即在不改變底層模型參數的情況下,透過輸入序列中提供的信息來修改模型行為的能力,在提示的成功中發揮了至關重要的作用。因此,構建成功提示的藝術和技巧(提示工程)變得極為重要。然而,我們對提示的理論特性知之甚少。目前尚不清楚提示是否能實現任何行為或任務,或者反之,是否可以透過提示來實現任何行為或任務。
本文將這個問題框架為一個通用逼近問題。傳統上,通用逼近結果顯示了一類易於處理的函數(如神經網路)如何以任意精度逼近另一類概念函數(例如,有界域上的所有連續函數)。這通常是透過證明可以選擇逼近目標函數的模型參數來實現的。然而,上下文學習提出了一個不同的挑戰,因為模型參數是固定的。相反,輸入的一部分(提示)被修改以使模型逼近目標函數。因此,本文將通用上下文逼近定義為存在固定權重,使得生成的模型可以被提示逼近概念類中的任何函數的特性。
本文展示了 RNN、LSTM、GRU、線性 RNN 以及 Mamba 和 Hawk/Griffin 等線性門控架構也可以作為通用的上下文逼近器。為了簡化論證,本文引入了一種稱為 LSRL 的編程語言,它可以編譯成這些完全遞迴架構。LSRL 本身也可能對完全遞迴模型的進一步研究(例如構建可解釋性基準)具有獨立的意義。本文還研究了乘法門控的作用,並觀察到包含此類門控的架構(例如 LSTM、GRU、Hawk/Griffin)可以更穩定地實現某些操作,使其成為實用的上下文通用逼近的更有希望的候選者。
線性狀態遞迴語言 (LSRL):本文開發了一種名為 LSRL 的編程語言,它可以編譯成不同的完全遞迴模型。使用 LSRL 編程類似於“像遞迴模型一樣思考”。然後,LSRL 程序可以完全按照模型權重實現。
通用上下文逼近:使用 LSRL,本文構建了可以被提示為對有限標記序列執行任何標記到標記函數,或逼近任何連續函數的線性 RNN 模型。這些結果也適用於 RNN、LSTM、GRU 和 Hawk/Griffin 模型。
乘法門控的作用:本文提出了包含和不包含乘法門控的構造。然而,觀察到沒有這些門的構造依賴於數值不穩定的條件邏輯。
數值穩定性:乘法門控導致更緊湊和數值穩定的模型,這使得在使用它們的模型(例如 LSTM、GRU 和最新一代的線性 RNN)中更有可能出現通用上下文逼近特性。