대규모 분산 딥러닝을 위한 이차 동기화 규칙
분산 딥러닝에서 국소 경사 방법(Local Gradient Methods)은 통신 비용을 줄이지만, 적절한 동기화 주기 H를 선택하는 것이 중요하다. 본 연구는 이론적 근거를 바탕으로 H를 학습률의 제곱에 반비례하도록 동적으로 조정하는 이차 동기화 규칙(Quadratic Synchronization Rule, QSR)을 제안한다. ImageNet 실험 결과, QSR은 ResNet-152와 ViT-B에서 기존 동기화 전략보다 높은 테스트 정확도를 달성하면서도 통신 비용을 크게 줄일 수 있음을 보여준다.