المفاهيم الأساسية
Hunyuan-Largeは、大規模な合成データ、効率的なMoE構造、効果的な学習戦略によって、さまざまなベンチマークで優れたパフォーマンスを発揮する、オープンソースの大規模言語モデルである。
الملخص
Tencentによるオープンソース大規模言語モデル:Hunyuan-Large
本稿では、Tencentが開発した、現時点で最大規模のオープンソースTransformerベースMixture of Experts(MoE)モデルであるHunyuan-Largeについて解説する。
総パラメータ数3,890億、アクティブパラメータ数520億という巨大なスケールを誇り、最大256Kトークンを処理可能。
従来の自然言語処理タスクに加え、数学、コーディング、複数ターン対話、多言語処理といった高度なLLM機能もサポート。
高品質な合成データ
従来の自然言語コーパスに加え、数学、コーディング、教育分野に特化した1.5兆トークンの合成データを活用。
指示生成、進化、応答生成、フィルタリングの4段階プロセスを経て、多様かつ高品質な合成データを生成。
強化されたモデル構造
共有エキスパートと専門エキスパートを組み合わせたMoE構造を採用し、効率的な学習と推論を実現。
KVキャッシュ圧縮技術により、メモリ負荷を軽減し、展開とスケーリングを容易に。
リサイクルルーティング戦略により、トークン廃棄による情報損失を抑制し、学習の安定性と効率性を向上。
エキスパート固有の学習率スケーリングにより、各エキスパートの学習効率を最適化。
MoEスケーリング則の探求
モデルサイズ、学習データ、パフォーマンスの関係性を分析し、最適な設定を導出。
コスト効率を最大限に高めながら、最適なパフォーマンスを実現するための指針を提供。