Adam과 같은 적응형 경사 기반 옵티마이저를 사용하는 훈련 과정에서 Epochal Sawtooth Effect(ESE)라는 손실 패턴이 발생하는데, 이는 데이터 셔플링, Adam 매개변수(특히 β2), 배치 크기, 모델 용량 등의 요인이 복합적으로 작용한 결과이다.