Conceitos Básicos
本稿では、新しい大規模多言語コードデバッグベンチマークであるMDEVALを提案し、自動プログラム修復、コードレビュー、バグ識別の3つのタスクにおけるオープンソースモデルとクローズドソースモデルのデバッグ性能を評価した。
Resumo
MDEVAL: 大規模多言語コードデバッグベンチマーク
Shukai Liu1 ∗, Linzheng Chai1 *, Jian Yang1 *†, Jiajun Shi1, He Zhu1, Liran Wang1, Ke Jin1, Wei Zhang , Hualei Zhu1, Shuyue Guo , Tao Sun1, Jiaheng Liu1, Yunlong Duan , Yu Hao , Liqun Yang1, Guanglin Niu1, Ge Zhang , Zhoujun Li1. (2024). MDEVAL: Massively Multilingual Code Debugging. arXiv:2411.02310v1
本研究は、コード大規模言語モデル (LLM) の多言語コードデバッグ能力を評価するための包括的なベンチマークを確立することを目的とする。