이 논문은 대규모 언어 모델(LLM)의 다중 과제 학습 성능을 향상시키기 위한 새로운 접근법을 제안한다. 기존의 방법들은 단일 밀집 모델의 지식 혼란 문제에 시달리지만, 전문가 혼합(MoE) 모델은 과제 분리에 효과적이다.
저자들은 인간 인지 신경과학의 원리에 영감을 받아 직관 인지 기반 MoE 프레임워크 "Intuition-MoR1E"를 설계했다. 이 모델은 입력 인스턴스의 내재적 의미 클러스터링을 활용하여 라우터의 의사 결정을 향상시킨다. 또한 매개변수 효율성을 높이기 위해 저차원 어댑터(LoRA) 기반의 순위-1 전문가 구조를 도입했다.
실험 결과, Intuition-MoR1E는 14개 공개 데이터셋에서 2.15%의 정확도 향상과 더 나은 효율성을 달성했다. 이는 제안된 직관 인지 기반 라우팅과 경량 전문가 구조의 시너지 효과를 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yijiang Liu,... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08985.pdfDeeper Inquiries