核心概念
구글에서 새롭게 출시한 실험적 대규모 언어 모델인 제미나이-exp-1114가 LMArena 벤치마크에서 ChatGPT-4.0를 능가하며 최상위 순위를 차지했지만, 아직 실험 단계인 모델이기에 최종적인 성능 평가를 위해서는 추가적인 검증이 필요하다.
摘要
구글, 새로운 LLM 모델 '제미나이-exp-1114' 공개 및 LMArena 성능 비교
이 글은 구글에서 새롭게 발표한 실험적 대규모 언어 모델(LLM)인 '제미나이-exp-1114'가 LMArena 벤치마크에서 OpenAI의 ChatGPT-4.0를 넘어섰다는 내용을 다루고 있습니다.
LMArena란?
- LLM 성능 평가를 위해 LMSYS와 UC 버클리 SkyLab 구성원들이 개발한 오픈소스 플랫폼입니다.
- 실시간 평가와 쌍별 비교를 통해 커뮤니티 기반 LLM 성능 평가를 목표로 합니다.
LMArena 리더보드 분석
- 제미나이-exp-1114는 스타일 제어를 제외한 전반적인 성능에서 ChatGPT-4.0를 앞서지만, 스타일 제어 부분에서는 ChatGPT-4.0가 더 높은 순위를 차지했습니다.
- 제미나이-exp-1114는 평균 성능 점수를 나타내는 Arena Score에서 ChatGPT-4.0보다 근소하게 높은 점수를 기록했습니다.
- ChatGPT-4.0는 제미나이-exp-1114보다 훨씬 많은 사용자 평가를 받았으며, 이는 ChatGPT-4.0가 더 광범위하게 사용되고 검증되었음을 의미합니다.
제미나이 실험 모델의 특징
- 사용자 피드백 수집 및 개발자에게 최신 AI 기술 접근 권한을 제공하기 위해 출시된 실험적 모델입니다.
- 언제든 예고 없이 다른 모델로 대체될 수 있으며, 안정적인 모델로의 전환이 보장되지 않으므로 프로덕션 환경에서의 사용은 권장되지 않습니다.
제미나이-exp-1114 무료 사용 방법
- Google AI Studio에 로그인합니다.
- 프롬프트 생성 페이지로 이동합니다.
- 설정에서 모델을 'Gemini Experimental 1114'로 변경합니다.
- 채팅을 시작합니다.
결론
제미나이-exp-1114는 초기 단계의 실험 모델이지만, LMArena에서 ChatGPT-4.0를 능가하는 성능을 보여주면서 앞으로 LLM 분야의 경쟁이 더욱 치열해질 것으로 예상됩니다. 하지만 아직 실험 단계인 만큼, 최종적인 성능과 안정성을 평가하기 위해서는 추가적인 시간과 검증이 필요합니다.
統計資料
제미나이-exp-1114는 LMArena에서 1344점을 기록하여 1340점을 기록한 ChatGPT-4.0를 능가했습니다.
ChatGPT-4.0는 LMArena에서 42,225표를 받았으며, 제미나이-exp-1114는 6,446표를 받았습니다.
引述
"Finally, OpenAI has been dethroned and the new, best LLM released yesterday by Google, in their experimental series of LLMs, Gemini-exp-1114 takes the crown."
"An experimental model may be replaced with another at any time without prior notice. We do not guarantee that an experimental model will transition into a stable model in the future. Hence, should be avoided in production."