Core Concepts
Trinity 슈퍼컴퓨터의 성능 향상을 위해 기계 학습, 프록시 애플리케이션 및 스케줄링 우선순위를 활용하는 방법을 제안합니다.
Abstract
오늘날 슈퍼컴퓨터는 노드 수가 계속 증가하고 있으며, 전체 성능은 가장 느린 노드에 의해 제한됩니다.
느린 노드를 식별하고 성능을 향상시키며, 성능 중요 실행 시 느린 노드의 사용을 최소화하는 것이 중요합니다.
이를 위해 빠르게 실행되는 하드웨어 평가 테스트, 기계 학습 및 성능 데이터 활용이 제안됩니다.
MPI 및 OpenMP 기반의 프록시 애플리케이션을 개발하여 장시간 실행 애플리케이션 대신 사용하였습니다.
기계 학습을 통해 성능이 저하된 노드를 식별하고, 이를 최소화하고 시스템 효율을 높이기 위한 정책을 논의하였습니다.
Stats
CPU 속도 테스트에서 가장 큰 성능 편차가 발견되었습니다.
9,327개 노드 중 최소 12개 노드가 평균 성능보다 최소 3.5 표준편차 낮은 것으로 나타났습니다.
프록시 애플리케이션 성능과 HPL 성능 간 선형 회귀 분석 결과, ((4MPI DGEMM Min) + (2MPI DGEMM Mean) + MPI NBODY Mean) < 7190.0 조건으로 느린 노드를 식별할 수 있었습니다.
Mahalanobis 거리 분석을 통해 최소 20개의 느린 노드를 식별할 수 있었습니다.
Quotes
"오늘날 슈퍼컴퓨터는 노드 수가 계속 증가하고 있으며, 전체 성능은 가장 느린 노드에 의해 제한됩니다."
"느린 노드를 식별하고 성능을 향상시키며, 성능 중요 실행 시 느린 노드의 사용을 최소화하는 것이 중요합니다."