RNN 시퀀스-투-시퀀스 모델은 훈련 데이터 또는 분포 내 데이터에 대한 매핑을 근사하는 데 그치며, 근본적인 함수를 학습하지 못한다. 주목 메커니즘은 학습 효율성과 강건성을 높이지만, 분포 외 일반화 한계를 극복하지 못한다.