核心概念
本文介紹了一種基於冪律解碼器表示的大型語言模型 (PLDR-LLM),該模型利用非線性和線性轉換來產生更優化的演繹和歸納輸出,並在基準測試中展現出與同等規模的傳統模型相比更具競爭力的性能。
文獻資訊
Gokden, B. (2024). PLDR-LLM: Large Language Model from Power Law Decoder Representations. arXiv preprint arXiv:2410.16703.
研究目標
本研究旨在開發一種新型大型語言模型 (LLM) 架構,稱為基於冪律解碼器表示的大型語言模型 (PLDR-LLM),並評估其在自然語言處理任務中的性能。
方法
PLDR-LLM 基於冪律圖變換器,並對其注意力機制進行了修改,包括使用 SwiGLU 激活函數、旋轉嵌入和層歸一化。
該模型使用 RefinedWeb 資料集的前 80 億個詞彙進行預訓練,批次大小為 32,上下文長度為 1024 個詞彙。
研究人員評估了不同規模的 PLDR-LLM(參數大小從 1.04 億到 2.6 億不等)在零樣本和少樣本設定下的性能,並與其他類似規模的 LLM 進行了比較。
此外,他們還研究了將有向無環圖 (DAG) 損失應用於演繹輸出作為度量和正則化器的效果,以觀察模型特徵並提高模型性能。
主要發現
PLDR-LLM 在零樣本和少樣本基準測試中表現出與類似規模的傳統 LLM 相比具有競爭力的性能。
最深和最薄的模型 (PLDRv5-1) 具有最小的模型大小(1.04 億),但在基準測試中取得了最高的平均分數,優於參考模型和 DAG 正則化模型。
DAG 正則化模型在 tinyMMLU、tinyWinoGrande 和 tinyTruthfulQA 基準測試中取得了比基礎模型和參考模型更高的分數。
最大學習率和預熱步驟對 PLDR-LLM 的性能有顯著影響。
主要結論
PLDR-LLM 是一種新型的 LLM 架構,它利用冪律圖注意力機制並具有定義明確的演繹和歸納輸出。
PLDR-LLM 在基準測試中表現出與同等規模的傳統模型相比更具競爭力的性能。
DAG 損失可以用作度量和正則化器,用於觀察模型特徵並提高 PLDR-LLM 的性能。
意義
本研究提出了一種新的 LLM 架構,該架構有可能改進各種自然語言處理任務。
局限性和未來研究
本研究僅使用 RefinedWeb 資料集的一個子集對 PLDR-LLM 進行了預訓練。使用更大的資料集進行預訓練可能會進一步提高模型的性能。
未來的工作可以探索將 DAG 損失應用於 PLDR-LLM 中其他組件的效果。
統計資料
本研究中使用的 PLDR-LLM 模型的參數大小從 1.04 億到 2.6 億不等。
模型使用 RefinedWeb 資料集的前 80 億個詞彙進行預訓練。
預訓練過程中的批次大小為 32,上下文長度為 1024 個詞彙。