이 논문은 대량 언어 모델(LLM)의 추론 속도와 GPU 활용도를 높이기 위한 BASS(Batched Attention-optimized Speculative Sampling) 기법을 소개합니다.
주요 내용은 다음과 같습니다:
기존 단일 시퀀스 기반 투기적 디코딩(speculative decoding)을 확장하여 다중 시퀀스를 동시에 처리할 수 있도록 하였습니다. 이를 통해 GPU 활용도를 크게 높일 수 있습니다.
가변 길이 시퀀스를 효율적으로 처리하기 위해 BASS-PAD와 BASS-SPLIT이라는 두 가지 커널 구현 방식을 제안하였습니다.
각 시퀀스의 최적 초안 길이를 동적으로 조절하는 휴리스틱 알고리즘을 개발하였습니다.
OPT, CodeGen-Mono, 7.8B 코드 모델 등 다양한 모델에 대한 실험 결과, BASS가 기존 방식 대비 최대 3.23배 빠른 추론 속도와 2.94배 높은 GPU 활용도를 달성했음을 보여줍니다.
시간 예산 내에서 BASS는 단일 시퀀스 투기적 디코딩 대비 훨씬 높은 정확도(Pass@First 43%, Pass@All 61%)를 달성할 수 있습니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問