대규모 언어 모델의 추론 지연을 줄이기 위해 준 독립 레이어의 병렬 계산을 제안하고, 정보 손실을 최소화하는 우회 기술을 도입한다.
대규모 언어 모델의 의견 관련 질문에 대한 응답에서 특정 성격 특성을 반영하도록 모델을 조정하는 것이 핵심 목표이다.
대규모 언어 모델은 다중 의미 연산자가 포함된 문장의 범위 모호성을 인식하고 인간과 유사한 선호도를 보인다.
대규모 언어 모델에서 원치 않는 데이터의 영향을 제거하고 관련 모델 기능을 제거하는 동시에 필수적인 지식 생성의 무결성을 유지하는 방법을 모색한다.
Jamba는 Transformer 레이어와 Mamba 레이어를 결합한 새로운 하이브리드 아키텍처를 기반으로 하는 대규모 언어 모델이다. 이를 통해 메모리 사용량과 계산 효율성을 개선하면서도 우수한 성능을 달성한다.
인턴LM2는 혁신적인 사전 학습 및 최적화 기술을 통해 기존 대규모 언어 모델을 능가하는 성능을 달성했으며, 특히 장기 문맥 처리 능력이 뛰어나다.
데이터 속성에 따른 대규모 언어 모델의 성능 향상 방법을 제안한다.
신경망 압축 기술을 활용하여 대규모 언어 모델을 효율적으로 학습할 수 있다. 이를 통해 학습 및 추론 효율성 향상, 긴 텍스트 처리 용이성 등의 이점을 얻을 수 있다.
n-그램 언어 모델은 신경망 기반 대규모 언어 모델 시대에도 여전히 유용하며, 데이터 규모와 n의 크기를 확장함으로써 텍스트 분석과 신경망 모델 성능 향상에 기여할 수 있다.
구조화된 데이터 패킹은 대규모 언어 모델의 장문 문맥 활용 능력을 향상시킨다.