OpenAI發布了一系列名為"o1-preview"的全新推理模型,這些模型在解決複雜問題和進行專家級推理方面超越了GPT-4o。
這些新模型在回答問題之前會花更多時間思考,在科學、編程和數學等領域的表現都非常出色。根據官方報告,它的推理性能遠超GPT-4o,在許多基準測試中甚至超過了人類專家的水平。
這些新的推理模型通過學習如何更有效地分析問題、嘗試多種策略,並能夠識別和糾正錯誤,就像人類一樣。通過這種方式,模型能夠在更複雜的任務上表現出色。
OpenAI使用大規模強化學習算法來訓練o1-preview模型。通過高效的數據訓練,算法使模型能夠學會使用"思維鏈"來有效地思考問題。在訓練過程中,模型會不斷優化其思維鏈,最終提高解決問題的能力。
OpenAI發現,隨著強化學習時間(訓練期間的計算)和推理時間(測試期間的計算)的增加,o1模型的性能會顯著提高。這種基於推理的訓練方法與傳統的大規模語言模型(LLM)預訓練方法不同,具有獨特的可擴展性優勢。
o1-preview模型通過"思維鏈"大大增強了其在複雜推理任務中的能力。思維鏈的基本概念類似於人類思考困難問題的過程:分步驟地分解問題,嘗試不同的策略,並糾正錯誤。通過強化學習訓練,o1-preview能夠在回答問題之前深思熟慮,並逐步完善步驟。
這種推理方式顯著提高了o1-preview在複雜任務中的表現。例如,o1-preview可以通過思維鏈識別問題的關鍵步驟,並逐步解決。這種推理模式特別適用於需要多步推理的任務,如複雜的數學問題或困難的編程任務。
在OpenAI的內部測試中,新一代模型在解決複雜問題方面表現接近博士水平,特別是在物理、化學和生物等學科的任務中。
在AIME(美國邀請數學考試)中,GPT-4o只正確解決了13%的問題,而新的推理模型則正確解決了83%的問題。在GPQA(物理、化學和生物專家級測試)中,o1-preview超越了博士級專家的表現,成為第一個在這個基準測試中超越博士的AI模型。
在MMLU(多任務語言理解)中,o1-preview在54個子類別中超越了GPT-4o,特別是在啟用視覺感知功能時,o1模型在MMLU基準測試中達到78.2%的性能,首次與人類專家競爭。
在編程能力方面,o1模型在Codeforces編程競賽中也表現出色,超過了93%的參與者。在2024年國際信息學奧林匹克競賽(IOI)中,OpenAI訓練的基於o1-preview的模型在10小時內解決了6個複雜的算法問題,並在整個競賽中排名第49百分位,超過了大多數參與者。
此外,OpenAI還進行了人類偏好評估,結果顯示在涉及推理任務的領域(如數據分析、編程、數學等),人類評審者明顯更喜歡o1-preview模型的答案。
OpenAI還推出了o1-mini模型,這是一個更小、更快的推理模型,專注於代碼生成和調試。o1-mini的成本比o1-preview低80%,非常適合需要推理能力但不需要廣泛世界知識的應用場景。
o1-mini在數學和編程任務方面表現出色,在AIME數學競賽中得分70.0%,接近o1的74.4%,遠高於o1-preview的44.6%。在Codeforces編程競賽中,o1-mini的Elo評分為1650,位於86%的程序員之上。
總的來說,OpenAI的新推理模型o1-preview和o1-mini在解決複雜問題和進行專家級推理方面展現出了卓越的性能,在科學、編程和數學等領域都有廣泛的應用前景。
To Another Language
from source content
braintitan.medium.com
Key Insights Distilled From
by Brain Titan at braintitan.medium.com 09-13-2024
https://braintitan.medium.com/discover-openais-new-o1-inference-model-dive-into-the-technical-report-now-8bb2337c56a8Deeper Inquiries