核心概念
文章介紹了一個名為 P-MMEval 的全新基準測試,用於評估大型語言模型的多語言能力,涵蓋基礎自然語言處理和進階任務,並提供多語言平行語料,旨在更全面、一致地評估模型跨語言遷移能力。
論文概述
本論文介紹了一個名為 P-MMEval 的全新基準測試,旨在更全面、一致地評估大型語言模型(LLM)的多語言能力。P-MMEval 涵蓋基礎自然語言處理(NLP)和進階任務,並提供多語言平行語料,為評估模型的跨語言遷移能力提供了更可靠的依據。
研究背景
近年來,LLM 在人工智慧領域受到廣泛關注,但大多數 LLM 以英文為中心,缺乏對其多語言能力的系統評估。現有基準測試要麼側重於基礎 NLP 任務,要麼僅關注特定能力,且多語言覆蓋範圍不一致。
P-MMEval 的設計理念
P-MMEval 基於以下設計理念:
任務多樣性: 涵蓋基礎 NLP 任務(生成和理解)和五種核心 LLM 能力(程式碼生成、知識理解、數學推理、邏輯推理和指令遵循)。
語言多樣性: 涵蓋 10 種不同語言,橫跨 8 個語系,以測試 LLM 的跨語言遷移能力。
資料集選擇流程
研究團隊採用配對樣本 T 檢定,從大量資料集中篩選出能有效區分不同模型系列和規模的 LLM 效能的資料集,以減少冗餘測試並提高評估效率。
P-MMEval 的組成
P-MMEval 包含三個基礎 NLP 資料集和五個進階能力專用資料集:
基礎 NLP 資料集: XNLI(自然語言推論)、MHELLASWAG(常識推理)和 FLORES-200(機器翻譯)。
進階能力專用資料集: HUMANEVAL-XL(程式碼生成)、MGSM(數學推理)、MLOGIQA(邏輯推理)、MMMLU(知識理解)和 MIFEval(指令遵循)。
實驗與分析
研究團隊使用多個開源和閉源 LLM 進行了實驗,並分析了不同提示、模型、語言和任務對模型效能的影響。實驗結果表明:
模型規模越大,多語言能力越強。
QWEN2.5 在理解和進階任務方面表現出色,而 GEMMA2 在生成任務方面表現優異。
GPT-4O 的整體效能優於開源模型。
不同提示策略對模型效能的影響較小,但使用英文指令可能會導致生成任務的效能下降。
模型的非英文效能似乎受限於其英文效能,但在程式碼生成任務中,模型在英文和非英文測試集上均取得了相當的效能。
結論
P-MMEval 為評估 LLM 的多語言能力提供了一個全面且一致的基準測試,有助於推動 LLM 在多語言環境下的發展和應用。
统计
P-MMEval 涵蓋 10 種不同語言,橫跨 8 個語系。
HUMANEVAL-XL 資料集涵蓋 23 種自然語言和 12 種程式語言。
MMMLU 資料集包含 200 個「困難」樣本和 200 個「容易」樣本。
MIFEval 資料集包含 25 種類型的「可驗證指令」。
研究團隊使用了 QWEN2.5、LLAMA3.1、LLAMA3.2、MISTRAL-NEMO、MISTRAL-LARGE 和 GEMMA2 等模型進行了實驗。