Transformerは、非線形活性化関数を適切に選択することで、関数空間での勾配降下法を自然に実装できる。さらに、この勾配降下法は、データ分布に合った非線形活性化関数を使用した場合、十分な層数で最適な予測を行うことができる。