이 연구는 대규모 언어 모델(LLM)의 추론 속도를 높이는 것을 목표로 합니다. 저자들은 SPACE(Smart Parallel Auto-Correct dEcoding)라는 접근법을 제안했습니다.
SPACE의 주요 구성 요소는 다음과 같습니다:
반자동 회귀(SAR) 미세 조정 기법: 기존 자동 회귀(AR) LLM을 SAR LLM으로 변환하여 한 번에 여러 토큰을 생성할 수 있게 합니다.
자동 수정 디코딩 알고리즘: 동일한 LLM을 사용하여 토큰 생성과 검증을 동시에 수행할 수 있게 합니다. 이를 통해 보조 모델이 필요 없어지고 구현이 단순해집니다.
실험 결과, SPACE는 HumanEval-X 벤치마크에서 2.7배에서 4.0배 사이의 추론 속도 향상을 달성했으며, 출력 품질도 유지했습니다. 또한 SPACE를 TGI(Text Generation Inference) 프레임워크와 통합하여 추가적인 가속화를 달성했습니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor