핵심 개념
희소 혼합 전문가(SMoE) 모델에서 작업 복잡도가 증가함에 따라 더 많은 전문가를 활성화하면 구성 작업에서 더 나은 일반화와 성능을 달성할 수 있다.
Jinze Zhao. (2024). Enhancing Generalization in Sparse Mixture of Experts Models: The Case for Increased Expert Activation in Compositional Tasks. NeurIPS 2024 Workshop on Compositional Learning: Perspectives, Methods, and Paths Forward. arXiv:2410.13964v1 [cs.LG] 17 Oct 2024.
본 연구는 복잡한 구성 작업을 수행할 때 희소 혼합 전문가(SMoE) 모델에서 일반적으로 사용되는 희소 활성화 방식이 항상 최적인지 여부를 실험적으로 조사하는 것을 목표로 한다.