核心概念
NVIDIA에서 개발한 새로운 대규모 언어 모델 Nemotron-70B는 GPT-4o 및 Claude 3.5를 능가하는 성능을 보이며, RLHF 및 새로운 보상 모델을 통해 자동 정렬 벤치마크에서 최상위 순위를 달성했다.
摘要
NVIDIA에서 Llama3.1 기반의 새로운 대규모 언어 모델 Nemotron-70B를 공개했습니다. 이 모델은 GPT-4o 및 Claude 3.5 Sonnet과 같은 주요 모델들을 능가하는 성능을 보여주며, 특히 Arena Hard, AlpacaEval 2 LC, MT-Bench와 같은 자동 정렬 벤치마크에서 최상위 순위를 달성했습니다.
Nemotron-70B의 주요 특징
- 700억 개의 매개변수: Claude3.5나 GPT4o에 비해 상대적으로 적은 매개변수를 사용하면서도 뛰어난 성능을 보여줍니다.
- REINFORCE 알고리즘 기반 RLHF: 사람의 평가를 기반으로 모델을 개선하는 강화학습 기법인 RLHF를 사용하여 시간이 지남에 따라 모델의 성능을 향상시킵니다.
- 새로운 보상 모델: Llama-3.1-Nemotron-70B-Reward 및 HelpSteer2-Preference Prompts와 같은 새로운 보상 모델을 사용하여 모델이 더 유용하고 관련성 높은 답변을 생성하도록 유도합니다.
Nemotron-70B의 성능 지표
모델 | ArenaHard | AlpacaEval2LC | MT-Bench |
---|
Llama-3.1-Nemotron-70B | 85.0 | 57.6 | 8.98 |
Claude 3.5 Sonnet | 79.2 | 52.4 | 8.81 |
GPT-4o | 79.3 | 57.5 | 8.74 |
주요 평가 지표 설명
- Arena Hard: Chatbot Arena에서 가져온 500개의 까다로운 사용자 쿼리로 구성된 벤치마크로, 모델의 전반적인 성능을 나타냅니다.
- AlpacaEval 2 LC: AlpacaFarm 평가 세트에서 가져온 805개의 지침으로 구성된 벤치마크로, 모델이 지시형 프롬프트에 얼마나 정확하게 응답하는지 측정합니다.
- MT-Bench: 다양한 지표에서 GPT-4-Turbo와 비교하여 모델의 응답을 평가하는 벤치마크로, 80개의 고품질 다중 턴 질문으로 구성되어 모델의 대화 능력을 평가합니다.
Nemotron-70B 사용 방법
NVIDIA NIMs를 사용하여 모델을 무료로 사용할 수 있으며, 자세한 내용은 모델 페이지 하단에서 확인할 수 있습니다.
统计
Nemotron-70B는 700억 개의 매개변수를 사용합니다.
Arena Hard 벤치마크에서 85.0점을 기록했습니다.
AlpacaEval 2 LC 벤치마크에서 57.6점을 기록했습니다.
MT-Bench 벤치마크에서 8.98점을 기록했습니다.
引用
"It’s a routine now that a Generative AI benchmark, set by one model, will be broken within, say, 10 days or a month by another."
"The best part is the model is just 70B parameters which is comparatively way less than Claude3.5 or GPT4o"