核心概念
大規模言語モデルのプリトレーニングにおいて、ベイズ最適化を用いてチェックポイントを最適に統合することで、リソース消費を大幅に削減しつつ性能を向上させることができる。
要約
本論文では、大規模言語モデルのプリトレーニングにおけるリソース消費の問題に取り組むため、チェックポイントマージングの手法を提案している。
まず、パイロット実験を通じて、チェックポイントマージングの基本的な特性を探索した。具体的には、以下の3つの研究課題について検討した:
- どのチェックポイントをマージすべきか
- いくつのチェックポイントをマージすべきか
- どのようにチェックポイントをマージすべきか
パイロット実験の結果、隣接するチェックポイントをマージすることで性能が向上すること、マージ重みを適切に設定することが重要であることが分かった。
これらの知見に基づき、本論文では、ベイズ最適化を用いてマージ重みを最適化する手法を提案した。ベイズ最適化は、コストがかかり、微分不可能な目的関数を効率的に最適化できる手法である。
様々な実験の結果、提案手法は以下の2点で優れていることが示された:
- プリトレーニングを大幅に改善し、ほぼ無料の性能向上を実現できる。
- 特定のホールドアウトデータセットを用いて決定したマージ重みでも、様々なドメインにわたって高い一般化性能を維持する。
統計
大規模言語モデルのプリトレーニングには膨大な計算リソースと環境負荷がかかる。例えば、LLaMA 70B モデルの2T トークンのプリトレーニングには1,720,320 GPU時間が必要である。
大規模言語モデルのプリトレーニングコストを削減する手法として、ミックス精度トレーニング、ゼロ冗長最適化、継続的リトレーニング、パイプラインパラレリズム、深さスケーリングなどが提案されている。
引用
"大規模言語モデルのプリトレーニングには膨大な計算リソースと環境負荷がかかる。例えば、LLaMA 70B モデルの2T トークンのプリトレーニングには1,720,320 GPU時間が必要である。"
"チェックポイントマージングは、プリトレーニングコストを大幅に削減し、ほぼ無料の性能向上を実現できる。"