変換器の深さを変えることで、変換器がどのように記憶、推論、一般化、文脈的一般化を行えるかを明らかにする。単層の変換器は記憶に優れるが、他のタスクでは不足しており、少なくとも2層の変換器が必要となることを示す。