Core Concepts
추천 모델 학습 시 자주 접근되는 임베딩 중 변화가 적은 임베딩을 동적으로 식별하고 스킵하여 학습 효율을 높임
Abstract
이 논문은 추천 모델 학습 시 자주 접근되는 임베딩 중 변화가 적은 임베딩을 동적으로 식별하고 스킵하는 Slipstream 프레임워크를 제안한다.
- 학습 초기 단계에서 자주 접근되는 "핫" 임베딩을 식별하고 이들의 시간에 따른 변화를 추적한다.
- 샘플링 기반 접근법을 통해 효율적으로 정체된 임베딩을 식별하고, 이들에 대한 입력을 스킵한다.
- 정규화 기법을 적용하여 정체된 임베딩 식별로 인한 정확도 저하를 방지한다.
이를 통해 Slipstream은 기존 대비 2배 이상의 학습 시간 단축을 달성하며, CPU-GPU 대역폭 사용 및 메모리 접근을 최소화한다.
Stats
추천 모델 학습 시 임베딩 관련 작업(임베딩 조회, 업데이트, CPU-GPU 통신)이 전체 시간의 최대 75%를 차지한다.
일부 "핫" 임베딩은 다른 임베딩에 비해 100배 이상 자주 접근된다.
자주 접근되는 "핫" 임베딩은 학습 초기 단계에서 빠르게 수렴하여 이후 변화가 미미해진다.
Quotes
"Training recommendation models pose significant challenges regarding resource utilization and performance."
"We observe that, even among the popular embeddings, certain embeddings undergo rapid training and exhibit minimal subsequent variation, resulting in saturation."
"Slipstream optimizes training efficiency by selectively updating embedding values based on data awareness."