GPT-NEO 125M 모델은 학습 데이터에서 전체 문단을 암기하고 재현할 수 있으며, 이러한 암기 메커니즘은 모델의 다양한 층과 구성 요소에 걸쳐 있지만 특정 주요 구성 요소에 집중되어 있다.