核心概念
大型語言模型在編寫代碼方面取得了重大進展,現在是否可以用於自主複製研究儲存庫中的結果?這種能力將是研究界的一大福音,有助於研究人員驗證、理解和擴展先前的工作。為了朝著這個目標前進,我們引入了SUPER,這是第一個專門設計用於評估大型語言模型在設置和執行研究儲存庫任務能力的基準。
要約
SUPER基準包含三個不同的問題集:
- 45個具有註釋專家解決方案的端到端問題(Expert set)。
- 從專家集中提取的152個子問題(Masked set),專注於特定挑戰(如配置訓練器、解決運行時異常、正確執行腳本等)。
- 604個自動生成的問題(Auto set),涵蓋更廣泛的儲存庫和挑戰。
我們引入了各種評估指標,利用可用的金標準解決方案或近似值來評估任務成功和進度。我們發現頂尖的方法難以解決這些問題,最好的模型(GPT-4o)只能解決16.3%的端到端集和46.1%的情景。這說明了這項任務的挑戰性,並表明SUPER可以成為社區取得進步和衡量進度的有價值資源。
統計
最好的模型(GPT-4o)只能解決16.3%的端到端集和46.1%的情景。
開源模型在子問題和端到端任務上都遠遠落後。
引用
"大型語言模型在編寫代碼方面取得了重大進展,現在是否可以用於自主複製研究儲存庫中的結果?"
"這種能力將是研究界的一大福音,有助於研究人員驗證、理解和擴展先前的工作。"