Основные понятия
본 연구는 사전 학습된 혼합 전문가 모델의 메모리 사용량과 계산 요구량을 줄이기 위한 새로운 2단계 프레임워크인 SEER-MoE를 제안한다. 첫 번째 단계에서는 중요도 높은 전문가 선별을 통해 전체 전문가 수를 줄이고, 두 번째 단계에서는 정규화 기반 미세 조정 전략을 통해 정확도 손실을 보완하면서 추론 시 활성화되는 전문가 수를 줄인다. 실험 결과, 제안 방법은 최소한의 정확도 저하로 추론 효율이 향상된 희소 혼합 전문가 모델을 생성할 수 있음을 보여준다.
Аннотация
본 연구는 혼합 전문가 모델(MoE)의 메모리 요구량과 계산 요구량을 줄이기 위한 새로운 2단계 프레임워크인 SEER-MoE를 제안한다.
1단계:
- 중요도가 낮은 전문가를 선별적으로 제거하여 전체 전문가 수를 줄인다.
- 이를 위해 전문가 활성화 빈도를 기반으로 한 중요도 측정 기법을 사용한다.
2단계:
- 미세 조정 과정에서 활성화되는 전문가 수를 줄이는 기법을 적용한다.
- 정규화 기반 손실 함수를 통해 전문가 선택의 집중도를 높이는 방식으로 접근한다.
실험 결과:
- 제안 방법은 기존 접근법 대비 최소한의 정확도 저하로 메모리와 계산 요구량을 크게 줄일 수 있음을 보여준다.
- 특히 Mixtral 8x7b 모델에 적용했을 때 25% 전문가 제거 시 3.85% 정확도 저하, 50% 제거 시 13.78% 저하에 그쳤다.
- 미세 조정 기법 적용 시에도 단일 전문가 활성화 모델이 기존 2개 전문가 활성화 모델과 유사한 성능을 보였다.
Статистика
혼합 전문가 모델의 파라미터 수는 전문가 수에 비례하여 증가한다.
혼합 전문가 모델의 FLOPs는 활성화되는 전문가 수에 비례하여 증가한다.
Mixtral 8x7b 모델에서 전문가 블록 계산이 전체 FLOPs의 약 55%를 차지한다.
단일 전문가 활성화 모델의 FLOPs는 2개 전문가 활성화 모델 대비 27% 감소한다.
Цитаты
"혼합 전문가 모델은 입력에 따라 계산 자원을 동적으로 할당할 수 있어 유망한 아키텍처이지만, 메모리 요구량이 큰 문제가 있다."
"본 연구는 사전 학습된 혼합 전문가 모델의 메모리 사용량과 계산 요구량을 줄이기 위한 새로운 2단계 프레임워크인 SEER-MoE를 제안한다."