核心概念
탠덤 트랜스포머 아키텍처는 대규모 언어 모델의 자기회귀적 생성 과정에서 발생하는 비효율성을 해결하기 위해 제안되었다. 이는 작은 자기회귀 모델과 큰 블록 기반 모델을 결합하여 추론 속도를 높이면서도 성능 저하를 최소화한다.
摘要
이 논문은 대규모 언어 모델(LLM)의 추론 속도 향상을 위한 새로운 아키텍처인 탠덤 트랜스포머를 소개한다.
-
기존 LLM의 자기회귀적 생성 방식은 추론 속도를 저하시키는 주요 요인이다. 이를 해결하기 위해 투기적 디코딩(speculative decoding) 및 병렬 디코딩 기법이 제안되었지만, 정확도 저하 문제가 있었다.
-
탠덤 트랜스포머는 작은 자기회귀 모델(MS)과 큰 블록 기반 모델(ML)을 결합한다. MS는 자기회귀적으로 토큰을 생성하되, ML의 더 풍부한 표현을 활용하여 정확도를 높인다.
-
PaLM2-Bison과 PaLM2-Gecko 모델로 구성된 탠덤 모델은 PaLM2-Gecko 단독 모델 대비 3.3% 향상된 다음 토큰 예측 정확도를 보였으며, PaLM2-Otter 모델과 유사한 성능을 보이면서도 1.16배 빠른 추론 속도를 달성했다.
-
탠덤 모델은 투기적 디코딩(SPEED) 프레임워크에 통합되어, MS가 초안을 생성하고 ML이 이를 검증하는 방식으로 추가적인 속도 향상을 달성했다.
-
적응형 블록 길이 기법을 통해 탠덤 모델의 성능을 더욱 개선했으며, TPUv5e에서의 실험 결과 PaLM2-Bison 대비 최대 2.4배 빠른 추론 속도를 보였다.
统计
PaLM2-Bison 모델 대비 탠덤 모델이 약 1.16배 빠른 추론 속도를 보였다.
탠덤 모델과 SPEED 프레임워크를 결합한 경우, PaLM2-Bison 대비 최대 2.4배 빠른 추론 속도를 달성했다.
적응형 블록 길이 기법을 적용한 탠덤 + SPEED 모델은 PaLM2-Bison 대비 최대 2.85배 빠른 추론 속도를 보였다.
引用
"The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially."
"Tandem Transformers consists of two models – a small model MS and a large model ML, where: 1) ML processes the prompt/query. 2) MS generates the first γ tokens autoregressively, while attending to the prompt/query representations generated by ML."
"Evaluation on benchmark datasets show that Tandem (PaLM2-Bison, PaLM2-Gecko) with block length γ = 3 is substantially more accurate than PaLM2-Gecko, and comparable to PaLM2-Otter, while achieving approximately 1.16× lower inference latency than PaLM2-Otter."