Основні поняття
AB-Training은 통신 오버헤드를 크게 줄이면서도 정확도를 유지할 수 있는 분산 신경망 학습 기법이다.
Анотація
이 논문은 분산 환경에서 신경망을 학습할 때 발생하는 통신 병목 현상을 해결하기 위한 AB-Training 기법을 제안한다. AB-Training은 가중치 행렬을 저순위 표현으로 분해하고 독립적인 그룹 기반 학습을 활용한다. 이를 통해 네트워크 트래픽을 평균 50% 줄일 수 있었다. 또한 작은 규모에서는 정규화 효과로 인해 성능 향상을 보였다. 하지만 대규모 실험에서는 큰 배치 크기로 인한 정확도 저하 문제가 발견되었다. 이는 독립적으로 학습된 모델들을 평균화하는 과정에서 발생하는 것으로 보인다. 향후 연구에서는 이러한 문제를 해결하기 위한 업데이트 메커니즘 개선이 필요할 것으로 보인다.
Статистика
2노드(8 GPU) 실험에서 총 네트워크 트래픽은 4.67 GB/s였지만, AB-Training에서는 2.10 GB/s로 약 50% 감소했다.
4노드(16 GPU) 실험에서 총 네트워크 트래픽은 4.77 GB/s였지만, AB-Training에서는 2.12 GB/s로 약 50% 감소했다.
8노드(32 GPU) 실험에서 총 네트워크 트래픽은 4.58 GB/s였지만, AB-Training에서는 1.76 GB/s로 약 50% 감소했다.
16노드(64 GPU) 실험에서 총 네트워크 트래픽은 4.44 GB/s였지만, AB-Training에서는 1.74 GB/s로 약 50% 감소했다.
32노드(128 GPU) 실험에서 총 네트워크 트래픽은 4.07 GB/s였지만, AB-Training에서는 1.58 GB/s로 약 50% 감소했다.
Цитати
"Communication bottlenecks hinder the scalability of distributed neural network training, particularly on distributed-memory computing clusters."
"To significantly reduce this communication overhead, we introduce AB-training, a novel data-parallel training method that decomposes weight matrices into low-rank representations and utilizes independent group-based training."
"Our method exhibits regularization effects at smaller scales, leading to improved generalization for models like VGG16, while achieving a remarkable 44.14 : 1 compression ratio during training on CIFAR-10 and maintaining competitive accuracy."