JetMoE-8B는 100만 달러 미만의 비용으로 훈련되었지만 Llama2-7B 모델을 능가하는 성능을 보여주며, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 능가하는 성과를 달성했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사한다.
소규모 언어 모델(SLM)의 성능을 향상시키기 위해 체계적인 하이퍼파라미터 최적화, 효과적인 학습 방법론, 아키텍처 설계 및 고품질 데이터를 활용하여 SLM의 역량을 크게 향상시켰다.
본 연구는 사전 학습된 혼합 전문가 모델의 메모리 사용량과 계산 요구량을 줄이기 위한 새로운 2단계 프레임워크인 SEER-MoE를 제안한다. 첫 번째 단계에서는 중요도 높은 전문가 선별을 통해 전체 전문가 수를 줄이고, 두 번째 단계에서는 정규화 기반 미세 조정 전략을 통해 정확도 손실을 보완하면서 추론 시 활성화되는 전문가 수를 줄인다. 실험 결과, 제안 방법은 최소한의 정확도 저하로 추론 효율이 향상된 희소 혼합 전문가 모델을 생성할 수 있음을 보여준다.
자기회귀 대형 언어 모델(LLM)은 "A는 B다"라는 문장을 학습하더라도 자동으로 "B는 A다"로 일반화하지 못한다.
작은 규모의 생성 언어 모델도 언어 복잡도를 낮추면 제로샷 학습 능력을 발휘할 수 있다.
대규모 언어 모델에서 지속적인 지시 미세 조정 과정에서 일반적인 지식의 망각 현상이 관찰되며, 모델 규모가 증가할수록 망각의 심각성이 증가한다. 또한 디코더 전용 모델인 BLOOMZ가 인코더-디코더 모델인 mT0보다 지식 유지 능력이 더 우수하며, 일반적인 지시 미세 조정이 후속 미세 조정 과정에서 재앙적 망각 현상을 완화할 수 있다.
장문 문맥 LLM은 극단적인 레이블 분류 작업에서 긴 입력 문맥을 이해하고 활용하는 데 어려움을 겪는다.
다양한 일본어 사전 학습 모델을 공개하여 일본 문화와 정체성을 반영하는 AI 민주화를 추진하고자 한다.
대규모 언어 모델의 은닉 활성화에서 사람이 이해할 수 있는 개념을 식별하는 기술을 제시한다. 이를 통해 모델의 추론 과정을 시각화하고 모델의 잘못된 또는 바람직하지 않은 응답을 이해할 수 있다.
저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴