Concepts de base
大規模言語モデルの能力は、モデルの規模と精度によって大きく影響を受ける。より大規模なモデルは多くのタスクで優れた性能を示すが、一部の推論タスクでは小規模モデルが優れる。また、大規模モデルは低精度でも高い性能を維持できる。
Résumé
本研究では、2つの主要な大規模言語モデルファミリー(Llama 2-Chat、Mistral)を対象に、モデルの規模と精度が性能に与える影響を包括的に評価した。
モデルの規模に関して:
- 多くのタスクで、より大規模なモデルが小規模モデルを上回る性能を示した。これは、大規模モデルが複雑なパターンや依存関係をより良く捉えられるためと考えられる。
- ただし、類推推論やマスタタスクなどの一部の推論タスクでは、大規模モデルの優位性が見られなかった。これらの複雑な推論能力は、単純な規模拡大では獲得できない可能性がある。
モデルの精度に関して:
- 大規模モデルは低精度(4ビット量子化)でも高い性能を維持できる一方、小規模モデルは精度低下の影響を受けやすい。
- 同じメモリ予算内では、小規模高精度モデルよりも大規模低精度モデルの方が優れた性能を発揮する。
要約すると、大規模化とともに量子化による効率化を組み合わせることで、リソース制約下でも高い性能を発揮できる可能性が示された。ただし、一部の推論タスクでは大規模化の効果が限定的であり、別のアプローチが必要と考えられる。
Stats
大規模モデルの訓練には膨大なエネルギーを要し、GPT-3の訓練には約1300メガワット時の電力が必要と推定されている。
GPT-3の推論には5台のNVIDIA A100 80GBが必要で、リソース制約下での利用が困難。
Citations
"Contrary to the previous view that model performance enhances with scale which is also referred to as the scaling laws, a few studies argue that improvements do not linearly correlate with an increase in the number of parameters for certain tasks."
"Quantization primarily involves converting the weights and activations of a neural network from their default 32-bit or 16-bit floating point formats to more compact representations such as 8-bit and 4-bit integers."