Core Concepts
Adam-mini 최적화기는 메모리 효율성이 2배 높고 대규모 언어 모델 학습 시 49.6% 더 높은 처리량을 달성한다.
Abstract
이 콘텐츠는 최근 개발된 새로운 최적화기 Adam-mini에 대해 설명하고 있다.
Adam 최적화기는 현재 업계에서 가장 널리 사용되는 최적화기이지만, 메모리 효율성이 낮다는 문제가 있다. 예를 들어 70억 개의 매개변수를 가진 언어 모델을 학습하려면 Adam 최적화기에 86GB의 메모리가 필요하다.
이에 ML 연구팀이 Adam-mini라는 개선된 버전의 최적화기를 개발했다. Adam-mini는 메모리 효율성이 2배 높고, 대규모 언어 모델 학습 시 49.6% 더 높은 처리량을 달성한다. 이를 통해 더 큰 규모의 모델을 효율적으로 학습할 수 있게 되었다.
Stats
Adam 최적화기는 70억 개의 매개변수를 가진 언어 모델 학습 시 86GB의 메모리가 필요하다.
Google PaLM과 같은 540억 개의 매개변수를 가진 모델을 학습하려면 50개 이상의 GPU가 필요하다.
Quotes
"Adam-mini 최적화기는 메모리 효율성이 2배 높고, 대규모 언어 모델 학습 시 49.6% 더 높은 처리량을 달성한다."