구글에서 새롭게 출시한 실험적 대규모 언어 모델인 제미나이-exp-1114가 LMArena 벤치마크에서 ChatGPT-4.0를 능가하며 최상위 순위를 차지했지만, 아직 실험 단계인 모델이기에 최종적인 성능 평가를 위해서는 추가적인 검증이 필요하다.
NVIDIA에서 개발한 새로운 대규모 언어 모델 Nemotron-70B는 GPT-4o 및 Claude 3.5를 능가하는 성능을 보이며, RLHF 및 새로운 보상 모델을 통해 자동 정렬 벤치마크에서 최상위 순위를 달성했다.