本文介紹了RoMath,一個由三個數據集組成的羅馬尼亞數學推理基準測試套件:
RoMath-Baccalaureate:包含5,777個來自羅馬尼亞高中畢業考試的問題,涵蓋幾何、組合、抽象代數、線性代數、微積分和極限等多個領域,難度從簡單計算到需要證明的問題。
RoMath-Competitions:包含1,133個來自數學競賽的問題,約一半需要證明,被認為是非常困難的,需要洞察力和問題解決技能。
RoMath-Synthetic:包含70,000個程序生成的代數性質問題,只有單一最終答案。
作者使用了一個半自動的工作流程,利用基礎語言模型從非結構化的原始OCR輸入中提取結構化輸出,並用註釋問題的相關元數據。
作者還提供了一個使用LLM作為評判者的全面基準測試,分析了其在羅馬尼亞和英語系統提示下的性能。結果表明,簡單翻譯問題陳述是不夠的,因為它會顯著降低性能,強調了為非英語語言創建專門資源的需求。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Adrian Cosma... ב- arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.11074.pdfשאלות מעמיקות