核心概念
SMoE 모델의 메모리 사용량과 전문가 중복성 문제를 해결하기 위해 라우팅 정책을 활용한 전문가 병합 기법과 추가적인 압축 기법을 제안한다.
要約
이 논문은 Sparse Mixture-of-Experts(SMoE) 모델의 메모리 사용량과 전문가 중복성 문제를 해결하기 위한 방법을 제안한다.
- 전문가 병합 기법 M-SMoE:
- 전문가 간 가중치 정렬을 통해 전문가 간 정렬을 수행한다.
- 라우팅 정책을 활용하여 유사한 전문가들을 그룹화하고, 각 그룹의 대표 전문가와 나머지 전문가들을 병합한다.
- 전문가 활성화 빈도를 가중치로 사용하여 병합을 수행한다.
- 병합 후 압축 기법 MC-SMoE:
- M-SMoE를 통해 병합된 전문가들의 가중치 공간이 낮은 차원성을 가지는 것을 관찰했다.
- 이를 활용하여 저rank 분해와 구조적 희소성 압축을 적용하여 추가적인 메모리와 연산량 절감을 달성한다.
실험 결과, M-SMoE는 최대 60%의 메모리 절감을, MC-SMoE는 최대 80%의 메모리와 20%의 연산량 절감을 달성하면서도 성능 저하가 미미한 것을 보여준다.
統計
병합 후 전문가의 가중치 공간 차원성이 감소한다. 스위치-베이스-32 모델의 각 레이어에서 병합 전후 안정 랭크 변화율의 평균이 대부분 음수 값을 가진다.
引用
"SMoE 모델은 메모리 사용량이 크고 전문가 간 중복성이 높다는 문제가 있다."
"라우팅 정책에는 효과적인 전문가 병합을 위한 단서가 포함되어 있다."
"병합된 전문가의 가중치 공간은 낮은 차원성을 가지며, 이는 추가적인 압축을 가능하게 한다."