核心概念
在樣本效率訓練中,最佳資料集的選擇取決於語言模型的大小:小型模型受益於資料集的多樣性,而較大型模型則受益於更豐富、更複雜的資料集。
摘要
書目資訊
Hong Meng Yam, Nathan Paek. (2024). What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance. arXiv preprint.
研究目標
本研究旨在探討在樣本效率訓練制度下,資料集組成對小型語言模型效能的影響,並確定在資源有限的情況下,哪種類型的資料最有利於語言習得。
方法
研究人員使用 BabyLM 評估套件,在限制為一千萬字的不同資料集上訓練了不同大小的 GPT 和 Llama 語言模型,並評估其在 BLiMP、EWoK 和 GLUE 等基準測試上的表現。所使用的資料集包括 CHILDES(兒童語料庫)、Gutenberg(經典書籍語料庫)、Mix(混合語料庫)和 TinyStories(簡化故事語料庫)。
主要發現
- 小型模型(如 GPT2-18M 和 GPT2-44M)在 Mix 資料集上表現最佳,該資料集提供了多樣化的語言輸入。
- 較大型模型(如 GPT2-97M、GPT2-705M 和 LLaMA-360M)在 Gutenberg 資料集上表現更出色,這得益於其豐富的語言內容。
- 在所有模型大小中,使用 CHILDES 或 TinyStories 訓練的模型表現均不佳。
主要結論
研究結果表明,最佳資料集的選擇取決於語言模型的大小。小型模型受益於資料集的多樣性,而較大型模型則受益於更豐富、更複雜的資料集。此外,研究還發現,兒童導向語音或簡化故事並不一定有利於任何規模的語言模型訓練。
研究意義
本研究強調了在資源有限的情況下,為小型語言模型選擇合適訓練資料的重要性。研究結果為樣本效率訓練提供了有價值的見解,並可以指導未來開發更有效率的語言模型。
局限性和未來研究方向
- 本研究使用了固定的超參數,針對每個模型-資料集對進行超參數調整可能會帶來更好的效能。
- 評估基準可能偏向於某些資料集,例如 TinyStories 或 CHILDES 中未充分涵蓋的語言能力。
- 由於計算資源限制,模型僅訓練了四個時期,更長的訓練時間可能有助於模型更好地捕捉資料集的細微之處。
未來研究可以探索更多類型的資料來源,例如新聞文章、科學文本和對話資料,以確定更廣泛的最佳資料集。此外,探索課程學習以模擬語言學習兒童的發展過程也可能是有益的。
統計資料
Chinchilla 模型的訓練資料量是 13 歲兒童見過單詞數量的 10000 多倍。
Llama-3 使用了 15 兆個詞彙進行訓練。
典型英語母語兒童在 6 歲左右達到成人語法水平時,僅接觸過約 1000 萬到 5000 萬個單詞。
Gutenberg 資料集的 FRE 分數為 87.49,CHILDES 資料集的 FRE 分數為 115.70,TinyStories 資料集的 FRE 分數為 105.19。
引述
"This has sparked interest in small language models (Schick and Schütze, 2021; Magister et al., 2023) with much fewer parameters, requiring much less data for training."
"Psycholinguistic precedent exists for sample-efficient pretraining; children see much less words than a modern LLM yet perform exceptionally well on reasoning tasks."
"Our findings suggest that the optimal dataset depends on the model size and that neither child-directed speech nor child-directed stories are optimal for language models of any sizes."