대규모 언어 모델의 추론 지연을 줄이기 위해 준 독립 레이어의 병렬 계산을 제안하고, 정보 손실을 최소화하는 우회 기술을 도입한다.
대규모 언어 모델의 의견 관련 질문에 대한 응답에서 특정 성격 특성을 반영하도록 모델을 조정하는 것이 핵심 목표이다.
대규모 언어 모델은 다중 의미 연산자가 포함된 문장의 범위 모호성을 인식하고 인간과 유사한 선호도를 보인다.
대규모 언어 모델에서 원치 않는 데이터의 영향을 제거하고 관련 모델 기능을 제거하는 동시에 필수적인 지식 생성의 무결성을 유지하는 방법을 모색한다.
인턴LM2는 혁신적인 사전 학습 및 최적화 기술을 통해 기존 대규모 언어 모델을 능가하는 성능을 달성했으며, 특히 장기 문맥 처리 능력이 뛰어나다.
데이터 속성에 따른 대규모 언어 모델의 성능 향상 방법을 제안한다.
신경망 압축 기술을 활용하여 대규모 언어 모델을 효율적으로 학습할 수 있다. 이를 통해 학습 및 추론 효율성 향상, 긴 텍스트 처리 용이성 등의 이점을 얻을 수 있다.
n-그램 언어 모델은 신경망 기반 대규모 언어 모델 시대에도 여전히 유용하며, 데이터 규모와 n의 크기를 확장함으로써 텍스트 분석과 신경망 모델 성능 향상에 기여할 수 있다.
구조화된 데이터 패킹은 대규모 언어 모델의 장문 문맥 활용 능력을 향상시킨다.
대규모 언어 모델에서 소수의 "체리" 매개변수가 모델 성능에 지배적인 영향을 미치는 반면, 대다수의 매개변수는 최소한의 영향만 미치는 매개변수 이질성 현상이 존재한다. 이를 활용하여 제안한 CherryQ 양자화 기법은 중요한 체리 매개변수를 높은 정밀도로 유지하면서 나머지 매개변수를 낮은 정밀도로 양자화하여, 기존 방법들보다 우수한 성능을 달성한다.