Core Concepts
지리적으로 분산된 데이터 센터 간 매개변수 동기화 지연을 줄이기 위해 네트워크 인식 적응형 트리 기반 통신 스케줄링 기법을 제안한다.
Abstract
이 논문은 지리적으로 분산된 기계 학습(GeoML) 시스템의 매개변수 동기화 지연 문제를 해결하기 위한 NETSTORM이라는 적응형 고효율 통신 스케줄러를 소개한다.
매개변수 동기화 지연을 최소화하기 위한 새로운 토폴로지 메트릭을 설계하고, 이를 기반으로 다중 루트 FAPT(Fastest Aggregation Path Tree) 토폴로지를 제안한다.
네트워크 인식 모듈을 개발하여 네트워크 자원 가용성에 대한 지식을 얻고, 이를 토폴로지 결정에 활용한다.
보조 경로 전송 메커니즘을 도입하여 네트워크 인식을 높이고 다중 경로 전송을 가능하게 한다.
정책 일관성 프로토콜을 설계하여 네트워크 변화에 따른 새로운 토폴로지 구성으로의 원활한 전환을 보장한다.
실험 결과, NETSTORM은 기존 MXNET, MLNET, TSEngine 대비 6.5~9.2배 빠른 학습 속도를 달성했다.
Stats
제안된 NETSTORM 시스템은 기존 MXNET 대비 6.5~9.2배 더 빠른 학습 속도를 달성했다.
NETSTORM은 동적 네트워크 환경에서 MLNET, TSEngine 대비 더 우수한 성능을 보였다.
Quotes
"지리적으로 분산된 데이터 센터 간 매개변수 동기화 지연을 줄이기 위해 네트워크 인식 적응형 트리 기반 통신 스케줄링 기법을 제안한다."
"실험 결과, NETSTORM은 기존 MXNET, MLNET, TSEngine 대비 6.5~9.2배 빠른 학습 속도를 달성했다."