본 연구는 분산 학습의 핵심 과제인 통신 오버헤드 문제를 해결하기 위해 제안되었다. 기존의 분산 학습 알고리즘들은 통신 압축 기법을 활용하여 통신 효율을 높이고자 하였지만, 압축 비율에 따라 적절한 합의 단계 크기를 튜닝해야 하는 한계가 있었다.
이에 본 연구에서는 AdaGossip 기법을 제안한다. AdaGossip은 이웃 에이전트 간 압축된 모델 차이의 제곱 평균을 기반으로 각 모델 파라미터의 합의 단계 크기를 개별적으로 조정한다. 이를 통해 압축으로 인한 오차가 큰 파라미터일수록 더 낮은 합의 단계 크기를 적용하여 성능 저하를 최소화할 수 있다.
실험 결과, AdaGossip을 적용한 AdaG-SGD 알고리즘이 다양한 데이터셋, 모델 아키텍처, 압축 기법, 그래프 토폴로지에서 기존 최신 기법 대비 0-2%의 성능 향상을 보였다. 특히 대규모 ImageNet 데이터셋에서도 0.8-1%의 성능 개선 효과를 확인하였다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Sai Aparna A... klokken arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05919.pdfDypere Spørsmål