核心概念
通過積分設計具備理想梯度特性的激活函數,可以提升大型語言模型的性能,例如 xIELU 在實驗中就優於 ReLU2 和 SwiGLU。
論文資訊
Huang, A. H. (2024). Deriving Activation Functions via Integration. arXiv preprint arXiv:2411.13010v1.
研究目標
本研究旨在探討一種通過積分設計激活函數的新方法,並驗證其在大型語言模型中的有效性。
方法
聚焦於激活函數的梯度特性,而非直接設計函數本身。
通過對期望的梯度行為進行積分,推導出相應的激活函數。
提出一個名為「指數線性單元擴展積分」(xIELU)的新型激活函數,它結合了 ReLU2 和 xSiLU 的優點。
在大型語言模型(LLaMA)上進行實驗,比較 xIELU 與 ReLU2 和 SwiGLU 的性能。
主要發現
xIELU 在保持計算效率的同時,性能優於 ReLU2 和 SwiGLU。
xIELU 能夠自適應地調整其非線性程度,在處理較高層次的表示時趨於簡單的變換。
xIELU 的訓練參數 αp 和 αn 在網絡的深層呈現下降趨勢,表明 xIELU 在處理更高層次的表示時會自適應地降低其非線性程度。
主要結論
聚焦於梯度特性是開發新型激活函數的一個很有前景的方向。
通過積分推導激活函數的方法可以產生有效的激活函數,例如 xIELU。
xIELU 在大型語言模型中具有提高性能的潛力。
意義
本研究提出了一種設計激活函數的新思路,並通過實驗證明了其在大型語言模型中的有效性,為未來激活函數的設計和研究提供了新的方向。
局限與未來研究方向
xIELU 目前的實現速度較慢,需要進一步優化。
需要在更大規模的模型和不同的任務上驗證 xIELU 的有效性。
xIELU 缺乏激活稀疏性,可以探討如何結合稀疏性的優點。
統計資料
在 FineWeb Edu 資料集上訓練 11 億參數的 LLaMA 模型,使用 xIELU 的模型在困惑度指標上優於使用 SwiGLU 和 ReLU2 的模型。
xIELU 的訓練參數 αp 和 αn 在網絡的 24 層中都呈現下降趨勢。