מושגי ליבה
針對特定語言的持續預訓練能有效提升語言模型在該語言下的表現,尤其是在模型規模較小的情況下,但隨著模型規模增大,持續預訓練帶來的效益會逐漸減少。
研究背景
近年來,基於 Transformer 架構的預訓練語言模型在自然語言處理領域取得了顯著的進展,然而,這些模型的開發主要集中在英語,導致其他語言的資源相對匱乏。
持續預訓練為將這些模型應用於其他語言和領域提供了一種有效的方法,透過使用特定語言的語料庫進行進一步的預訓練,可以顯著提高模型在下游任務中的效能。
研究方法
本研究以 Google 的 T5 模型為基礎,使用高達 30 億個參數的葡萄牙語文本進行持續預訓練,並探討不同預訓練設定(如模型規模、優化策略和預訓練數據品質)對下游任務效能的影響。
研究使用了 mC4 數據集的葡萄牙語部分(mC4-pt)作為預訓練數據,並採用了 ptt5-v1 的葡萄牙語詞彙表。
研究評估了模型在三個葡萄牙語下游任務上的效能:ASSIN2 RTE、ASSIN2 STS 和 TweetSentBR。
研究結果
研究發現,持續預訓練可以提高模型在下游任務中的效能,ptt5-v2 模型在 ASSIN2 RTE 和 TweetSentBR 數據集上取得了新的最佳成績。
然而,隨著模型規模的增大,持續預訓練帶來的效能提升逐漸減少。
研究還發現,優化策略和預訓練數據品質對模型效能的影響相對較小。
研究結論
本研究證實了針對特定語言進行持續預訓練的有效性,特別是在模型規模較小的情況下。
隨著模型規模的增大,持續預訓練的效益會逐漸減少,這表明未來需要探索更有效的預訓練方法來進一步提高大型語言模型的效能。
סטטיסטיקה
ptt5-v2-3B 在 ASSIN2 RTE 任務中,F1-macro 分數超越當前最佳模型 0.61 個百分點。
ptt5-v2-large 和 ptt5-v2-3B 在 TweetSentBR 數據集上,F1-macro 分數分別超越當前最佳模型 0.52 和 1.54 個百分點。
ptt5-v2-base 的 NPM 值僅次於參數量約為其 13.6 倍的 t5-3B 和 16.81 倍的 t5-xl。
在 mMARCO-pt 數據集中,ptt5-v2-3B 的 MRR@10 分數獲得了 0.026 個百分點的提升。
在 mRobust-pt 數據集中,ptt5-v2-large 和 ptt5-v2-3B 的 nDCG@20 分數分別超越當前最佳模型 0.071 和 0.121 個百分點。
在 quati-1M 數據集中,ptt5-v2-base 的 nDCG@10 分數相較於 mt5-base 提升了 0.031 個百分點。
在 quati-10M 數據集中,ptt5-v2-base 的 nDCG@10 分數相較於 mt5-base 提升了 0.020 個百分點。
在 quati-1M 數據集中,ptt5-v2-3B 的 nDCG@10 分數相較於 mt5-xl 提升了 0.012 個百分點。
在 quati-10M 數據集中,ptt5-v2-3B 的 nDCG@10 分數相較於 mt5-xl 提升了 0.028 個百分點。