TESTGENEVAL是一個大規模的基準測試,用於測量軟件測試生成和測試完成的性能。它包含來自11個大型、維護良好的Python存儲庫的1,210個代碼和測試文件對。
TESTGENEVAL包含兩個任務:
我們評估了從7B到405B參數不等的各種流行模型。結果顯示,模型難以生成高覆蓋率和高突變得分的測試套件。最佳模型GPT-4o只達到35.2%的平均覆蓋率和18.8%的突變得分。模型在推理代碼執行和生成正確的斷言方面存在困難。
相比之下,測試完成任務相對更容易,最佳模型在最後一個測試完成設置中達到74.3%的通過率。但是,模型難以為現有的完整測試套件增加覆蓋率,通常只能測試已經被覆蓋的計算路徑。
我們還進行了廣泛的定量和定性分析,包括與其他基準的相關性、設置和模型之間的相關性、常見的模型錯誤以及樣本和上下文窗口大小的影響。我們還比較了Codestral、GPT-4o和Llama 405B在區分問題方面的表現。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Kush... kl. arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00752.pdfDybere Forespørgsler