本論文では、MiniCPMと呼ばれる小規模言語モデルを紹介する。MiniCPMには1.2Bと2.4Bの2つのバリアントがあり、それぞれ7B-13Bの大規模言語モデルと同等の性能を発揮する。
モデルのスケーリングと学習データのスケーリングの両面で、MiniCPMは優れた拡張性を示す。モデルのスケーリングについては、風洞実験を通じて安定的かつ最適なスケーリングを実現している。学習データのスケーリングについては、Warmup-Stable-Decay (WSD)と呼ばれる学習率スケジューラを導入し、継続的な学習と分野適応を可能にしている。WSD学習率スケジューラの訓練ダイナミクスについて詳細な分析を行い、その特性を明らかにしている。
さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kなどのバリアントを紹介し、小規模言語モデルの多様な応用可能性を示している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Shengding Hu... om arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06395.pdfDiepere vragen