本稿では、1ビットニューラルネットワーク、特に大規模言語モデル(LLM)におけるスケーリング則を理論的に証明し、モデルの幅(パラメータ数)が大きくなるにつれて、従来のLLMに匹敵する性能を達成できることを示しています。