본 연구는 대규모 언어 모델(LLM)의 추론 지연 문제를 해결하기 위해 새로운 병렬 디코딩 방법인 은닉 전이를 제안한다. 기존 자기회귀적 디코딩 방식은 한 번에 하나의 토큰만 생성하므로 GPU의 병렬 처리 능력을 충분히 활용하지 못한다.
은닉 전이 방법은 중간 은닉 상태를 예측하고 이를 활용하여 단일 순방향 전파에서 여러 개의 초안 토큰을 동시에 생성한다. 구체적으로, 중간 은닉 상태를 선형 투영을 통해 미래 토큰의 의사 은닉 상태로 변환하고, 이 의사 은닉 상태가 후속 변환기 층을 거치면서 더 많은 의미 정보를 얻게 된다. 이를 통해 초안 토큰 예측 정확도를 높일 수 있다.
또한 트리 어텐션 메커니즘을 사용하여 여러 개의 후보 출력 시퀀스를 동시에 생성하고 검증함으로써 무손실 생성을 보장한다. 실험 결과, 제안 방법은 기존 단일 모델 가속 기법들보다 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Głębsze pytania