核心概念
분산 딥러닝에서 국소 경사 방법(Local Gradient Methods)은 통신 비용을 줄이지만, 적절한 동기화 주기 H를 선택하는 것이 중요하다. 본 연구는 이론적 근거를 바탕으로 H를 학습률의 제곱에 반비례하도록 동적으로 조정하는 이차 동기화 규칙(Quadratic Synchronization Rule, QSR)을 제안한다. ImageNet 실험 결과, QSR은 ResNet-152와 ViT-B에서 기존 동기화 전략보다 높은 테스트 정확도를 달성하면서도 통신 비용을 크게 줄일 수 있음을 보여준다.
要約
본 논문은 분산 딥러닝에서 데이터 병렬 학습 시 발생하는 통신 비용 문제를 해결하기 위해 국소 경사 방법(Local Gradient Methods)을 제안한다. 국소 경사 방법은 각 작업자가 일정 횟수(H)의 지역 업데이트를 수행한 후에만 모델 파라미터를 동기화하는 방식이다.
저자들은 H 값을 적절히 선택하는 것이 중요하다고 지적한다. H가 너무 크면 지역 모델이 크게 diverge되어 학습 속도가 느려지지만, H가 너무 작으면 통신 비용이 증가한다. 기존 연구에서는 H를 고정값으로 설정하거나 선형적으로 증가시키는 방법을 제안했지만, 이는 일반화 성능 향상에 한계가 있었다.
본 연구에서는 이론적 분석을 바탕으로 H를 학습률의 제곱에 반비례하도록 동적으로 조정하는 이차 동기화 규칙(Quadratic Synchronization Rule, QSR)을 제안한다. 이는 학습 후반부로 갈수록 H를 점진적으로 증가시켜 통신 비용을 줄이면서도 일반화 성능을 향상시킬 수 있다.
ImageNet 실험 결과, QSR은 ResNet-152와 ViT-B 모델에서 기존 동기화 전략보다 높은 테스트 정확도를 달성하면서도 통신 비용을 크게 줄일 수 있음을 보여준다. 예를 들어 ViT-B 모델의 경우 QSR을 적용하면 데이터 병렬 AdamW 대비 1.1% 높은 정확도를 달성하면서도 통신 비용을 90% 이상 줄일 수 있다.
統計
데이터 병렬 SGD의 통신 비용은 100%이다.
QSR을 적용한 Local SGD의 통신 비용은 ResNet-152에서 39.7%, ViT-B에서 10.4%이다.
QSR을 적용한 Local AdamW의 통신 비용은 ViT-B에서 6.9%이다.
引用
"Frequent gradient synchronization can induce huge communication overhead as the number of workers and model size grow, severely hindering the scalability of distributed training."
"It has also been long known that the choice of optimizers or hyperparameters can change not only the optimization speed of the training loss but also their implicit bias towards solutions with different test accuracies."