Kernkonzepte
本文提出了一種基於整數序列生成任務的新型基準測試,用於評估大型語言模型的數學推理和程式碼生成能力,特別關注程式碼的正確性和效率。
Statistiken
o1 模型在簡單序列上得分至少為 63%,在困難序列上得分至少為 18%。
最佳非推理模型 Claude 3.5 Sonnet 在簡單序列上得分為 57%,在困難序列上得分為 11%。
多個前沿模型在簡單序列上的得分低於 50%(Llama 405b 和 Gemini 1.5 Pro),在困難序列上的得分低於 10%(GPT-4o、Llama 405b 和 Gemini 1.5 Pro)。
o1-mini 的作弊率最低,在簡單序列中為 2%,在困難序列中為 15.2%。
Gemini 1.5 Pro 因在困難序列中使用查找表而受到嚴重懲罰,得分低於 5%。
自動化作弊檢測方法的總體一致率達到 86%,在困難序列上的一致率達到 94%。
Zitate
"o1 模型,憑藉其推理能力,在準確性和作弊率方面均優於來自 OpenAI、Anthropic、Meta 和 Google 的其他前沿模型,涵蓋簡單和困難的整數序列。"
"我們的基準測試表明,像 o1-mini 這樣專注於數學推理和程式碼生成任務的 LLM 可以顯著優於通用模型。"
"所有模型在困難序列上的平均得分都很低,這表明目前的 LLM 難以生成複雜的演算法。"