자동회귀 언어 모델의 피드포워드 네트워크 블록을 입력 적응형으로 스킵하여 지식 집약적 태스크에서 성능 저하 없이 계산 비용을 크게 줄일 수 있다.
SMoE 모델의 메모리 사용량과 전문가 중복성 문제를 해결하기 위해 라우팅 정책을 활용한 전문가 병합 기법과 추가적인 압축 기법을 제안한다.