Основные понятия
직접 연결 토폴로지에서 모든-대-모든 집합 통신 성능을 최적화하기 위한 알고리즘과 기법을 제안한다.
Аннотация
이 논문은 직접 연결 토폴로지에서 모든-대-모든 집합 통신 성능을 최적화하기 위한 다양한 접근법을 제안한다.
다중 상품 흐름 문제(MCF)를 기반으로 한 최적의 링크 기반 및 경로 기반 스케줄링 알고리즘을 제안한다. 이를 위해 MCF 문제를 분해하고 병렬화하여 확장성을 높였다.
하드웨어 라우팅이 가능한 네트워크와 그렇지 않은 네트워크에 대해 각각 최적의 스케줄링 기법을 제안했다. 전자의 경우 경로 기반 접근법을, 후자의 경우 링크 기반 접근법을 사용한다.
제안된 스케줄링 기법을 ML 가속기와 HPC 런타임 및 상호 연결 기술에 맞춰 구현하는 방법을 설명했다.
일반화된 Kautz 그래프라는 새로운 토폴로지를 제안하고, 이를 통해 모든-대-모든 통신 성능의 이론적 상한을 도출했다.
Статистика
모든-대-모든 통신에서 각 노드는 총 m(N-1) 바이트의 데이터를 전송하고 수신한다.
N노드 d-정규 그래프에서 모든-대-모든 통신의 하한은 1/(B·m(N-1))이다.
Цитаты
"모든-대-모든 집합 통신 연산은 기계 학습(ML) 및 고성능 컴퓨팅(HPC) 분야에서 널리 사용되며, 그 성능을 최적화하는 것이 ML 및 HPC 커뮤니티 모두에게 관심사이다."
"직접 연결 패브릭과 토폴로지(예: 메시, 토러스, DragonFly, SlimFly 등)는 HPC 커뮤니티에서 잘 연구되어 왔으며, 여러 슈퍼컴퓨터에 배포되어 왔다."