様々なモデルアーキテクチャが文脈学習を実現できることを発見した。特に、注意機構を持たない一部のアーキテクチャが、注意機構を持つモデルと同等あるいはそれ以上の文脈学習能力を示すことが明らかになった。
トランスフォーマーは、少数の部分的にラベル付けされた入力例から、新しい入力に対する予測を学習することができる。