Core Concepts
Distributed Lion은 Lion 최적화기를 분산 학습 환경에 맞게 개선한 혁신적인 방법으로, 작업자와 중앙 서버 간 통신을 바이너리 또는 저정밀도 벡터로 제한하여 통신 비용을 크게 줄일 수 있다.
Abstract
이 논문은 Lion 최적화기를 분산 학습 환경에 맞게 개선한 Distributed Lion 알고리즘을 소개한다. Distributed Lion은 각 작업자가 자체적으로 Lion 최적화기를 적용하여 모델 파라미터를 업데이트하고, 작업자와 중앙 서버 간 통신은 바이너리 또는 저정밀도 벡터로 제한된다.
논문의 주요 내용은 다음과 같다:
Distributed Lion의 알고리즘 소개: 작업자는 자체적으로 Lion 최적화기를 적용하여 모델 파라미터를 업데이트하고, 중앙 서버는 작업자들로부터 받은 업데이트를 평균 또는 다수결 투표로 집계하여 다시 작업자들에게 전달한다.
Distributed Lion의 이론적 분석: Distributed Lion의 수렴 특성을 이론적으로 분석하여, 기존 방법들과 유사한 수렴 속도를 보임을 증명한다.
실험 결과: Distributed Lion이 기존 분산 학습 방법들에 비해 통신 비용을 크게 줄이면서도 성능 저하가 크지 않음을 보인다. 특히 대규모 비전 및 언어 모델 학습 실험에서도 우수한 성능을 보인다.
Stats
각 작업자의 국소 경사도 gi는 데이터 분포 Di로부터 추출된 무편향 추정치이다.
중앙 서버에서 집계된 경사도 gserver는 각 작업자의 국소 경사도 gi의 평균이다.
Quotes
"Lion 최적화기는 메모리, 계산, 샘플 효율성 면에서 장점을 가지고 있는 프로미싱한 경쟁자이다."
"Distributed Lion은 작업자와 중앙 서버 간 통신을 바이너리 또는 저정밀도 벡터로 제한하여 통신 비용을 크게 줄일 수 있다."