Core Concepts
전문화된 언어, 코드, 수학 모델을 융합하여 세 가지 영역에서 동시에 높은 성능을 달성할 수 있는 모델을 개발하였다.
Abstract
이 논문은 자연어, 프로그래밍 코드, 수학 기호 등 다양한 데이터 분포를 다루는 대규모 언어 모델(LLM)의 과제를 해결하고자 한다. 특정 도메인에 대한 전문성을 높이기 위해서는 관련 데이터로 집중 학습이 필요하지만, 이는 다른 도메인의 성능 저하를 초래한다.
이 논문에서는 이미 충분히 훈련된 세 개의 전문화된 모델(텍스트, 코드, 수학)을 융합하는 ULTRAFUSER 프레임워크를 제안한다. 토큰 단위의 게이팅 메커니즘을 도입하여 각 전문 모델의 출력을 적응적으로 결합한다. 또한 두 단계의 훈련 전략과 균형 있는 데이터 샘플링을 통해 안정성을 보장한다.
이를 위해 텍스트, 코드, 수학 콘텐츠를 포함하는 고품질의 ULTRACHAT 2 데이터셋을 구축하였다. 실험 결과, 제안 모델은 언어 이해, 코드 생성, 수학 추론 등 다양한 벤치마크에서 일관되게 우수한 성능을 달성하였다.
Stats
전문화된 텍스트 모델의 수학 성능은 19.94%에 불과하지만, 융합 모델은 30.58%로 향상되었다.
전문화된 코드 모델의 텍스트 성능은 63.05%였지만, 융합 모델은 73.51%로 개선되었다.
전문화된 수학 모델의 코드 성능은 10.98%였지만, 융합 모델은 53.03%로 크게 향상되었다.
Quotes
"전문화된 훈련에 의해 한 도메인에서 매우 높은 수준의 숙련도를 달성하는 것은 일반적으로 다른 도메인에서의 성능 저하를 동반한다."
"이 논문은 전문화된 능력을 일반 대화형 언어 모델에 가능한 한 적은 손실로 통합하고자 한다."