Centrala begrepp
TACOS는 임의의 네트워크 토폴로지에 대해 최적의 집합 알고리즘을 자동으로 합성할 수 있다.
Sammanfattning
이 논문은 분산 기계 학습 클러스터에서 발생하는 토폴로지 복잡성과 비대칭성 문제를 해결하기 위해 TACOS라는 자동화된 합성기를 소개한다. TACOS는 시간 확장 네트워크(TEN) 표현을 활용하여 임의의 네트워크 토폴로지에 대해 최적의 집합 알고리즘을 자동으로 합성할 수 있다.
TACOS의 핵심 내용은 다음과 같다:
- TEN을 활용하여 집합 알고리즘을 링크-청크 매칭 문제로 정의하고, 이를 효율적으로 해결하기 위한 탐욕 기반 매칭 휴리스틱을 제안했다.
- 토폴로지의 비대칭성과 이질성을 고려하기 위해 저비용 링크 우선 매칭과 청크 대체 기법을 도입했다.
- 스위치 기반 토폴로지에 대해 점대점 연결로 풀어내는 기법을 제안했다.
- 비집합 집합 알고리즘의 역변환을 통해 집합 집합 알고리즘을 효과적으로 합성할 수 있다.
TACOS는 기존 접근법 대비 최대 4.27배 성능 향상을 보였으며, 40,000개 NPU 시스템에 대해 2.52시간 내에 합성을 완료할 수 있었다. 이는 NP-hard 문제를 다루는 기존 접근법과 대비되는 결과이다.
Statistik
512개 NPU 시스템에 대해 TACOS가 6.09분 만에 합성한 All-Reduce 알고리즘은 기존 최신 기법 대비 최대 4.27배 성능 향상을 보였다.
TACOS는 40,000개 NPU 메시 토폴로지에 대해 2.52시간 만에 합성을 완료했다.
Citat
"TACOS는 토폴로지 인식 집합 알고리즘을 자동으로 합성할 수 있는 최초의 기법이다."
"TACOS는 기존 NP-hard 접근법과 달리 이차 시간 복잡도로 확장성을 보였다."