核心概念
다양한 멀티미디어 과제에서 뛰어난 성능을 보이는 대규모 언어 모델의 적응 능력을 향상시키기 위해, 인간의 직관 인지 과정을 모방한 혼합 전문가 모델을 제안한다.
摘要
이 논문은 대규모 언어 모델(LLM)의 다중 과제 학습 성능을 향상시키기 위한 새로운 접근법을 제안한다. 기존의 방법들은 단일 밀집 모델의 지식 혼란 문제에 시달리지만, 전문가 혼합(MoE) 모델은 과제 분리에 효과적이다.
저자들은 인간 인지 신경과학의 원리에 영감을 받아 직관 인지 기반 MoE 프레임워크 "Intuition-MoR1E"를 설계했다. 이 모델은 입력 인스턴스의 내재적 의미 클러스터링을 활용하여 라우터의 의사 결정을 향상시킨다. 또한 매개변수 효율성을 높이기 위해 저차원 어댑터(LoRA) 기반의 순위-1 전문가 구조를 도입했다.
실험 결과, Intuition-MoR1E는 14개 공개 데이터셋에서 2.15%의 정확도 향상과 더 나은 효율성을 달성했다. 이는 제안된 직관 인지 기반 라우팅과 경량 전문가 구조의 시너지 효과를 보여준다.
統計資料
제안된 Intuition-MoR1E 모델은 기존 LoRA 대비 2.15%의 전체 정확도 향상을 달성했다.
Intuition-MoR1E는 Llama 2 13B 모델에서 WSC 과제에서 11.54%, Llama 2 7B 모델에서 4.80% 향상된 성능을 보였다.
Intuition-MoR1E는 ANLI 과제에서 다른 방법들을 모두 능가하는 성능을 보였다.
Intuition-MoR1E는 모델 크기에 따른 성능 변화가 작아 강건성이 높다.
引述
"인간은 명시적 단서를 제공할 때 다중 과제 수행에서 뛰어난 능력을 발휘한다."
"전통적인 MoE 라우터는 미묘한 과제 구분에 어려움을 겪어 전문가 할당이 최적화되지 않는다."
"다중 과제 MoE는 전문가 수를 늘려야 하므로 상당한 추가 비용이 발생한다."