Core Concepts
제곱근이 없는 새로운 적응형 방법이 SGD와의 일반화 갭을 줄이고 변환기에서의 성능을 유지하는 것을 발견했습니다.
Abstract
적응형 그라디언트 최적화 방법의 제곱근 제거에 대한 연구 결과
제곱근이 없는 새로운 적응형 방법이 컨볼루션 신경망에서 SGD와의 일반화 갭을 줄이고 변환기에서의 성능을 유지함
제곱근 제거로 인한 적응성의 중요성 강조 및 적응형 방법의 이해에 대한 새로운 질문 제기
구조화된 행렬 적응 방법의 개발과 성능 비교
Stats
제곱근이 없는 새로운 적응형 방법이 SGD와의 일반화 갭을 줄이고 변환기에서의 성능을 유지함
Quotes
"제곱근이 없는 새로운 적응형 방법이 컨볼루션 신경망에서 SGD와의 일반화 갭을 줄이고 변환기에서의 성능을 유지함"