본 논문은 분산 딥러닝에서 데이터 병렬 학습 시 발생하는 통신 비용 문제를 해결하기 위해 국소 경사 방법(Local Gradient Methods)을 제안한다. 국소 경사 방법은 각 작업자가 일정 횟수(H)의 지역 업데이트를 수행한 후에만 모델 파라미터를 동기화하는 방식이다.
저자들은 H 값을 적절히 선택하는 것이 중요하다고 지적한다. H가 너무 크면 지역 모델이 크게 diverge되어 학습 속도가 느려지지만, H가 너무 작으면 통신 비용이 증가한다. 기존 연구에서는 H를 고정값으로 설정하거나 선형적으로 증가시키는 방법을 제안했지만, 이는 일반화 성능 향상에 한계가 있었다.
본 연구에서는 이론적 분석을 바탕으로 H를 학습률의 제곱에 반비례하도록 동적으로 조정하는 이차 동기화 규칙(Quadratic Synchronization Rule, QSR)을 제안한다. 이는 학습 후반부로 갈수록 H를 점진적으로 증가시켜 통신 비용을 줄이면서도 일반화 성능을 향상시킬 수 있다.
ImageNet 실험 결과, QSR은 ResNet-152와 ViT-B 모델에서 기존 동기화 전략보다 높은 테스트 정확도를 달성하면서도 통신 비용을 크게 줄일 수 있음을 보여준다. 예를 들어 ViT-B 모델의 경우 QSR을 적용하면 데이터 병렬 AdamW 대비 1.1% 높은 정확도를 달성하면서도 통신 비용을 90% 이상 줄일 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinran Gu,Ka... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2310.14423.pdfDeeper Inquiries