本報告介紹了Qwen2系列,這是我們最新推出的大規模語言模型和大規模多模態模型。我們發布了一套全面的基礎和指令調優語言模型,涵蓋了從0.5億到72億的參數範圍,包括密集模型和專家混合模型。Qwen2在大多數先前的開放權重模型中都表現出色,包括其前身Qwen1.5,並在語言理解、生成、多語言能力、編碼、數學和推理等多個基準測試中展現出與專有模型相媲美的競爭力。
旗艦模型Qwen2-72B在多個基準測試中表現出色:在MMLU上達到84.2,在GPQA上達到37.9,在HumanEval上達到64.6,在GSM8K上達到89.5,在BBH上作為基礎語言模型達到82.4。指令調優版本Qwen2-72B-Instruct在MT-Bench上達到9.1,在Arena-Hard上達到48.1,在LiveCodeBench上達到35.7。此外,Qwen2還展現出強大的多語言能力,精通約30種語言,包括英語、中文、西班牙語、法語、德語、阿拉伯語、俄語、韓語、日語、泰語、越南語等,突出了其多樣性和全球影響力。
為了促進社區創新和可及性,我們已經在Hugging Face和ModelScope上公開發布了Qwen2模型權重,並在GitHub上發布了補充材料,包括示例代碼。這些平台還包括量化、微調和部署的資源,促進了廣泛的應用和研究工作。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by An Yang, Bao... klo arxiv.org 09-11-2024
https://arxiv.org/pdf/2407.10671.pdfSyvällisempiä Kysymyksiä