이 연구는 대규모 언어 모델의 추론 지연 문제를 해결하기 위해 제안되었다. 대규모 언어 모델은 뛰어난 성능을 보이지만, 모델 크기 증가에 따른 높은 추론 지연이 사용자 경험에 부정적인 영향을 미친다.
기존 방법들은 레이어 단위 계산 지연 감소에 초점을 맞추었지만, 레이어 수 증가에 따른 누적 지연은 간과했다. 최근 연구에서는 레이어 제거를 통해 누적 지연을 줄이려 했지만, 성능 저하가 심각했다.
이 연구는 인접 레이어 간 입력 유사성에 주목했다. 유사한 입력을 가진 준 독립 레이어를 병렬로 계산하면 추론 지연을 크게 줄일 수 있다. 또한 주의 출력을 우회하는 기술을 도입해 정보 손실을 최소화했다.
실험 결과, LLaMA-33B 모델에서 최대 48.3%의 지연 감소를 달성했으며, 성능 저하도 크지 않았다. 이는 대규모 언어 모델의 내부 메커니즘이 파이프라인과 앙상블의 조합으로 작동함을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문