Concepts de base
다수의 전문가 LLM을 단일 일반화 프레임워크로 통합하는 방법을 제시한다.
Résumé
이 논문은 다양한 전문가 LLM을 단일 일반화 프레임워크로 통합하는 방법인 Expert-Token-Routing(ETR)을 소개한다.
핵심 내용은 다음과 같다:
- 메타 LLM의 어휘 내에 전문가 LLM을 특수 토큰(전문가 토큰)으로 인코딩한다.
- 메타 LLM은 전문가 토큰을 생성하여 해당 전문가 LLM을 활성화시킨다.
- 전문가 토큰 학습을 위해 기존 데이터셋에서 자동으로 전문가 질의를 수집한다.
- 새로운 전문가 LLM을 플러그인 방식으로 추가할 수 있어 확장성이 높다.
- 사용자 관점에서는 단일 LLM과 상호작용하는 것과 동일하다.
실험 결과, ETR은 다양한 전문 분야에서 기존 방식보다 우수한 성능을 보였다.
Stats
전문가 LLM의 성능은 전문 분야에 따라 최대 17.90% 향상되었다.
ETR의 전체 정확도는 73.52%로, 차선의 방식보다 5.64% 높았다.
ETR의 전문가 라우팅 정확도는 82.11%로, 차선의 방식보다 15.03% 높았다.
Citations
"전문가 토큰 임베딩을 학습하는 것은 매우 적은 수의 매개변수만을 조정하므로 안정적이고 효율적이다."
"새로운 전문가 LLM을 플러그인 방식으로 추가할 수 있어 확장성이 높다."