言語モデルアラインメントの最適解は、情報理論的量を用いて特徴付けられる。最適アラインメントと単純なベストオブN手法は漸近的に等価である。
BERTのファインチューニングにおいて、LayerNormが最も重要な構成要素であり、LayerNormのみをファインチューニングすることで、パラメータ数を大幅に削減しつつ、ほぼ同等の性能を達成できることを示した。