이 논문은 기계 학습(ML) 워크플로우의 복잡성, 리소스 집약성, 시간 소모성을 해결하기 위해 COULER이라는 시스템을 설계하고 구현한다.
COULER의 주요 특징은 다음과 같다:
자연어 설명을 사용하여 ML 워크플로우를 자동으로 생성할 수 있다. 대규모 언어 모델(LLM)을 워크플로우 생성에 통합하고 다양한 워크플로우 엔진에 대한 통합 프로그래밍 인터페이스를 제공한다.
자동 캐싱 메커니즘을 통해 중복 계산 비용을 최소화하고 장애 허용성을 높인다. 또한 대규모 워크플로우를 자동으로 병렬화하여 계산 효율성을 높인다.
LLM을 활용하여 자동으로 하이퍼파라미터를 튜닝함으로써 ML 워크플로우 훈련 파이프라인의 효율성을 높인다.
COULER은 ANT GROUP에 실제 배포되어 하루 약 22,000개의 워크플로우를 처리하고 있으며, CPU/메모리 활용도를 15% 이상, 워크플로우 완료율을 17% 정도 향상시켰다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문