CartesianMoE는 Mixture-of-Experts (MoE) 모델에서 전문가 간의 지식 공유를 개선하여 perplexity 및 다운스트림 작업 성능을 향상시키는 새로운 아키텍처입니다.