이 논문은 자동회귀 대규모 언어 모델(LLM)의 토큰 단위 생성 시 발생하는 높은 계산 비용 문제를 해결하기 위한 새로운 접근법을 제안한다. 기존의 레이어 스킵 방식은 키-값 캐시 관리 문제로 인해 잘못된 정보 생성과 토큰 붕괴 등의 이슈가 발생했다.
이 논문에서는 이러한 문제를 해결하기 위해 피드포워드 네트워크(FFN) 블록 스킵 전략인 FFN-SkipLLM을 제안한다. FFN-SkipLLM은 LLM 내 FFN 블록의 계산 중복성 관찰을 바탕으로, 입력 적응형으로 FFN 블록을 선택적으로 스킵한다. 이를 통해 KV 캐시 관리 문제를 회피하면서도 지식 집약적 태스크에서 성능 저하 없이 약 25-30%의 FFN 블록을 스킵할 수 있다.
실험 결과, FFN-SkipLLM은 지식 기반 질의응답, 다중 턴 대화, 문맥 내 요약 등의 태스크에서 기존 레이어 스킵 방식 대비 월등한 성능을 보였다. 특히 약 10-12% 스킵 비율에서 FFN-SkipLLM은 오히려 완전 모델보다 우수한 성능을 달성했다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor