Core Concepts
HEAM은 3D 적층 DRAM과 DIMM을 통합한 이종 메모리 아키텍처로, 임베딩 테이블 크기를 줄이는 합성 임베딩 기법을 효율적으로 가속하여 대규모 추천 모델의 단일 노드 실행을 가능하게 한다.
Abstract
HEAM은 개인화 추천 시스템에서 메모리 용량 요구사항과 메모리 대역폭 수요가 증가하는 문제를 해결하기 위해 제안된 이종 메모리 아키텍처이다.
HEAM은 기존 DIMM, 3D 적층 DRAM과 베이스 다이 수준의 메모리 내 처리 장치(bd-PIM), 뱅크 그룹 수준의 메모리 내 처리 장치(bg-PIM)로 구성된 3단계 메모리 계층 구조를 가진다. 이 구조는 합성 임베딩의 시간적 지역성과 임베딩 테이블 용량 특성을 고려하여 설계되었다.
HEAM은 Q 테이블과 R 테이블의 특성을 분석하여 각 테이블을 효율적으로 할당하는 전략을 사용한다. Q 테이블의 높은 시간적 지역성 데이터는 HBM에 저장하고, R 테이블의 전체 데이터는 bg-PIM 내부의 LUT에 저장한다. 이를 통해 메모리 대역폭 사용을 최적화하고, bg-PIM의 병렬 처리 능력을 극대화한다.
실험 결과, HEAM은 기존 NMP 기반 아키텍처 대비 6.2배 성능 향상과 58.9% 에너지 절감 효과를 보였다. 이를 통해 HEAM은 대규모 추천 모델을 단일 노드에서 효율적으로 실행할 수 있음을 보여준다.
Stats
임베딩 연산 실행 시간이 원본 DLRM 대비 HBM에서 25% 증가, DIMM에서 40% 증가한다.
Q 테이블의 캐시 적중률은 원본 테이블과 유사한 긴 꼬리 분포를 보이며, R 테이블의 캐시 적중률은 매우 높고 균일한 분포를 보인다.
Quotes
"최근 추천 모델은 수십 테라바이트 규모로 성장하여 단일 노드 추론 서버에서 효율적으로 실행하기 어려운 상황이다."
"임베딩 연산은 메모리 대역폭 수요가 크고 불규칙한 접근 패턴을 보이므로, 전통적인 데이터 센터 인프라에 상당한 제약을 가한다."