Core Concepts
AntBatchInfer는 쿠버네티스 클러스터에서 대규모 데이터 처리를 위한 안정적이고 효율적인 배치 추론 시스템을 제공한다.
Abstract
AntBatchInfer는 대규모 데이터 처리를 위한 배치 추론 시스템으로, 쿠버네티스 클러스터 환경에서 안정성과 효율성을 높이기 위해 설계되었다.
주요 특징은 다음과 같다:
다수준 장애 허용 기능:
포드 수준 장애 허용
애플리케이션 수준 장애 허용
데이터 무결성 보장
성능 최적화:
파이프라인 기반 단일 모델 배치 추론
다중 모델 배치 추론을 위한 DAG 기반 프레디터 스케줄링
노드 간/노드 내 탄력적 스케일링
사용자 편의성:
간단한 사용자 인터페이스
다양한 백엔드 지원(TensorFlow, PyTorch, ONNX)
실험 결과, AntBatchInfer는 기존 시스템 대비 단일 모델 배치 추론에서 2배, 다중 모델 배치 추론에서 6배 이상의 성능 향상을 보였다. 또한 안트그룹에서 다양한 시나리오(DLRM, CV, NLP 등)에 걸쳐 실제 운영 중이며, 안정성과 실용성을 입증하고 있다.
Stats
단일 모델 배치 추론 시 AntBatchInfer의 처리량은 1200 samples/sec로 기존 시스템 대비 2배 이상 향상되었다.
다중 모델 배치 추론 시 AntBatchInfer의 처리량은 398 samples/sec로 기존 시스템 대비 6배 이상 향상되었다.
다중 모델 배치 추론에서 DDS 기반 데이터 분할 방식은 기존 균등 분할 대비 12-30% 더 빠른 작업 완료 시간을 보였다.
AntBatchInfer는 최대 120개의 CPU 노드까지 선형적으로 확장되는 것을 확인했다.
Quotes
"AntBatchInfer는 쿠버네티스 클러스터에서 대규모 데이터 처리를 위한 안정적이고 효율적인 배치 추론 시스템을 제공한다."
"AntBatchInfer는 다수준 장애 허용 기능, 성능 최적화, 사용자 편의성 등의 특징을 갖추고 있다."