大型語言模型在編寫代碼方面取得了重大進展,現在是否可以用於自主複製研究儲存庫中的結果?這種能力將是研究界的一大福音,有助於研究人員驗證、理解和擴展先前的工作。為了朝著這個目標前進,我們引入了SUPER,這是第一個專門設計用於評估大型語言模型在設置和執行研究儲存庫任務能力的基準。