核心概念
Qwen2系列是一系列大規模語言模型,包括基礎語言模型和指令調優模型,在多個基準測試中展現出卓越的性能,並具有強大的多語言能力。
摘要
本報告介紹了Qwen2系列,這是我們最新推出的大規模語言模型和大規模多模態模型。我們發布了一套全面的基礎和指令調優語言模型,涵蓋了從0.5億到72億的參數範圍,包括密集模型和專家混合模型。Qwen2在大多數先前的開放權重模型中都表現出色,包括其前身Qwen1.5,並在語言理解、生成、多語言能力、編碼、數學和推理等多個基準測試中展現出與專有模型相媲美的競爭力。
旗艦模型Qwen2-72B在多個基準測試中表現出色:在MMLU上達到84.2,在GPQA上達到37.9,在HumanEval上達到64.6,在GSM8K上達到89.5,在BBH上作為基礎語言模型達到82.4。指令調優版本Qwen2-72B-Instruct在MT-Bench上達到9.1,在Arena-Hard上達到48.1,在LiveCodeBench上達到35.7。此外,Qwen2還展現出強大的多語言能力,精通約30種語言,包括英語、中文、西班牙語、法語、德語、阿拉伯語、俄語、韓語、日語、泰語、越南語等,突出了其多樣性和全球影響力。
為了促進社區創新和可及性,我們已經在Hugging Face和ModelScope上公開發布了Qwen2模型權重,並在GitHub上發布了補充材料,包括示例代碼。這些平台還包括量化、微調和部署的資源,促進了廣泛的應用和研究工作。
統計資料
MMLU上的準確率達到84.2%
GPQA上的準確率達到37.9%
HumanEval上的準確率達到64.6%
GSM8K上的準確率達到89.5%
BBH上作為基礎語言模型的準確率達到82.4%
MT-Bench上的得分達到9.1
Arena-Hard上的得分達到48.1
LiveCodeBench上的得分達到35.7