이 연구는 대규모 언어 모델(LLM)의 추론 속도를 높이는 것을 목표로 합니다. 저자들은 SPACE(Smart Parallel Auto-Correct dEcoding)라는 접근법을 제안했습니다.
SPACE의 주요 구성 요소는 다음과 같습니다:
반자동 회귀(SAR) 미세 조정 기법: 기존 자동 회귀(AR) LLM을 SAR LLM으로 변환하여 한 번에 여러 토큰을 생성할 수 있게 합니다.
자동 수정 디코딩 알고리즘: 동일한 LLM을 사용하여 토큰 생성과 검증을 동시에 수행할 수 있게 합니다. 이를 통해 보조 모델이 필요 없어지고 구현이 단순해집니다.
실험 결과, SPACE는 HumanEval-X 벤치마크에서 2.7배에서 4.0배 사이의 추론 속도 향상을 달성했으며, 출력 품질도 유지했습니다. 또한 SPACE를 TGI(Text Generation Inference) 프레임워크와 통합하여 추가적인 가속화를 달성했습니다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Hanling Yi,F... klokken arxiv.org 04-17-2024
https://arxiv.org/pdf/2402.11809.pdfDypere Spørsmål