언어 모델

Logg Inn

innsikt - 언어 모델

저렴한 비용으로 Llama2 성능 달성: JetMoE

JetMoE-8B는 100만 달러 미만의 비용으로 훈련되었지만 Llama2-7B 모델을 능가하는 성능을 보여주며, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 능가하는 성과를 달성했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사한다.

소규모 언어 모델의 잠재력 공개: 확장 가능한 학습 전략

소규모 언어 모델(SLM)의 성능을 향상시키기 위해 체계적인 하이퍼파라미터 최적화, 효과적인 학습 방법론, 아키텍처 설계 및 고품질 데이터를 활용하여 SLM의 역량을 크게 향상시켰다.

전문가 효율성 향상을 위한 희소 전문가 모델: 혼합 전문가 모델의 정규화

본 연구는 사전 학습된 혼합 전문가 모델의 메모리 사용량과 계산 요구량을 줄이기 위한 새로운 2단계 프레임워크인 SEER-MoE를 제안한다. 첫 번째 단계에서는 중요도 높은 전문가 선별을 통해 전체 전문가 수를 줄이고, 두 번째 단계에서는 정규화 기반 미세 조정 전략을 통해 정확도 손실을 보완하면서 추론 시 활성화되는 전문가 수를 줄인다. 실험 결과, 제안 방법은 최소한의 정확도 저하로 추론 효율이 향상된 희소 혼합 전문가 모델을 생성할 수 있음을 보여준다.

역전 저주: "A는 B다"를 학습한 LLM이 "B는 A다"를 배우지 못하는 현상

자기회귀 대형 언어 모델(LLM)은 "A는 B다"라는 문장을 학습하더라도 자동으로 "B는 A다"로 일반화하지 못한다.

작은 규모의 생성 언어 모델에서 나타나는 새로운 능력

작은 규모의 생성 언어 모델도 언어 복잡도를 낮추면 제로샷 학습 능력을 발휘할 수 있다.

장문 문맥 LLM은 장문 문맥 학습에 어려움을 겪는다

장문 문맥 LLM은 극단적인 레이블 분류 작업에서 긴 입력 문맥을 이해하고 활용하는 데 어려움을 겪는다.

일본어 사전 학습 모델 공개

다양한 일본어 사전 학습 모델을 공개하여 일본 문화와 정체성을 반영하는 AI 민주화를 추진하고자 한다.

대규모 언어 모델에서 선형 관계 개념 식별하기

대규모 언어 모델의 은닉 활성화에서 사람이 이해할 수 있는 개념을 식별하는 기술을 제시한다. 이를 통해 모델의 추론 과정을 시각화하고 모델의 잘못된 또는 바람직하지 않은 응답을 이해할 수 있다.

바일롱: 저용량 전이 학습 기반 바이링궐 모델

저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴

오픈 혼합 전문가 언어 모델에 대한 초기 노력

혼합 전문가 기반 대규모 언어 모델은 밀집 언어 모델에 비해 더 나은 비용 효율성 거래를 제공할 수 있음을 확인했습니다.

1
2
3
4
5
•••
16

Produkter

Ressurser