Core Concepts
기계 학습 워크로드의 고유한 I/O 접근 패턴으로 인해 기존 HPC 스토리지 시스템이 직면하는 여러 과제를 해결하기 위한 I/O 최적화 기술 개발이 필요하다.
Abstract
이 논문은 기계 학습(ML) 애플리케이션의 HPC 시스템에서의 I/O에 대해 종합적으로 조사한다. 먼저 ML 워크로드에서 사용되는 다양한 데이터 형식과 모달리티를 설명하고, ML 애플리케이션의 일반적인 단계를 개괄한다. 이어서 ML 워크로드의 I/O 접근 패턴을 분석하기 위해 DLIO 벤치마크를 사용하여 BERT와 Unet3D 워크로드의 I/O 특성을 살펴본다.
다음으로 현재 ML 프레임워크에서 제공하는 I/O 최적화 기술들을 소개하고, 최근 연구에서 제안된 추가적인 I/O 최적화 기법들을 논의한다. 마지막으로 ML 워크로드의 I/O에 대한 향후 연구 방향을 제시한다.
Stats
기계 학습 모델의 매개변수 수가 증가함에 따라 모델 체크포인팅에 필요한 데이터 크기도 증가한다.
BERT 워크로드의 경우 한 에폭당 21개의 독립적인 I/O 읽기 요청이 발생하며, 배치 크기를 늘리면 11개로 줄어든다.
Unet3D 워크로드의 경우 한 파일을 한 프로세스가 전체 읽는 패턴을 보인다.
Quotes
"ML 워크로드는 일반적으로 읽기 집약적이며 많은 수의 작은 파일을 사용한다."
"기계 학습 모델의 복잡성이 증가함에 따라 모델 체크포인팅의 중요성이 더욱 커지고 있다."