이 연구는 변환기 모델의 계산 효율성을 높이는 방법인 Mixture-of-Depths(MoD) 기법을 제안한다. MoD는 변환기 블록의 계산 용량을 제한하여 전체 FLOP 예산을 줄이는 동시에, 토큰 수준에서 계산을 동적으로 할당하는 방식을 사용한다.
구체적으로 MoD는 각 블록의 계산 용량을 사용자가 정의한 상수 k로 제한한다. 그리고 토큰별 라우터 가중치를 사용하여 상위 k개의 토큰만 해당 블록의 계산을 받도록 한다. 나머지 토큰은 계산 없이 그대로 통과시킨다. 이를 통해 전체 FLOP 예산을 줄이면서도 성능 저하를 최소화할 수 있다.
실험 결과, MoD 변환기는 동일한 FLOP 예산 내에서 기준 모델보다 더 나은 성능을 보였다. 또한 동일 성능 수준에서 MoD 변환기는 기준 모델보다 최대 50% 더 빠른 추론 속도를 보였다. 이는 MoD가 불필요한 계산을 효과적으로 건너뛰기 때문이다.
MoD는 변환기 모델의 효율성을 높이는 유용한 기법으로, 다른 조건부 계산 기법과 결합하여 더 큰 성능 향상을 달성할 수 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問