核心概念
雖然權重衰減是穩定大型語言模型訓練的常用技術,但它會導致模型在學習過程中忽視低頻詞彙,進而影響模型的公平性和對少數群體語言模式的理解。
摘要
書目資訊
Pinto, A., Galanti, T., & Balestriero, R. (2024). The Fair Language Model Paradox. arXiv preprint arXiv:2410.11985v1.
研究目標
本研究旨在探討權重衰減對大型語言模型中詞彙學習動態的影響,特別關注其對低頻詞彙學習表現的影響。
研究方法
研究人員訓練了不同規模的 Transformer 模型(Apple OpenELM 和 Qwen Qwen2),並使用 IMDB 數據集及其擴展版本 IMDB-xl 進行訓練。他們使用不同的權重衰減值進行訓練,並比較模型在不同詞頻下的性能表現,包括平均訓練損失、詞彙平衡訓練損失、詞彙學習速度等指標。
主要發現
- 隨著權重衰減值的增加,模型在低頻詞彙上的性能顯著下降,而高頻詞彙的性能則基本不受影響。
- 高頻詞彙的學習速度通常比低頻詞彙快,且隨著權重衰減值的增加,兩者之間的學習速度差距會進一步擴大。
- 詞彙頻率分佈高度不平衡,少數高頻詞彙佔據了數據集中絕大部分的詞彙量。
主要結論
權重衰減雖然可以穩定大型語言模型的訓練過程,但它會導致模型在學習過程中忽視低頻詞彙,進而影響模型的公平性和對少數群體語言模式的理解。
研究意義
本研究揭示了當前大型語言模型訓練實踐中的一個重要問題,即過度依賴權重衰減可能會導致模型產生詞彙偏差。這項研究強調了在評估模型性能時需要更加關注詞彙層面的指標,並呼籲開發更公平、更穩健的訓練技術。
局限與未來研究方向
- 本研究主要關注權重衰減對詞彙學習的影響,未來可以進一步探討其他正則化技術的影響。
- 未來研究可以探索針對低頻詞彙設計更有效的學習策略,例如數據增強、詞彙重加權等方法。
統計資料
在 IMDB 數據集中,95% 的詞彙量由前 0.01% 的高頻詞彙組成。
隨著詞彙量的增加,低頻詞彙的比例也會增加。
引述
"This is particularly concerning, as these neglected low-frequency tokens represent the vast majority of the token distribution in most languages, calling for novel regularization techniques that ensure fairness across all available tokens."
"Practitioners often use aggressive weight decay to train LLMs—intended to stabilize training—but unintentionally and silently degrade the model’s performance on low-frequency tokens, which make up the majority of the data."