RNNセクエンス・ツー・シーケンスモデルは、同一性、反転、完全重複、二次コピーの4つの変換タスクを学習する際に、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできない。注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。