CodeEditorBenchは、大規模言語モデルのコード編集能力を包括的に評価するための新しい評価フレームワークである。主な特徴は以下の通り:
評価の結果、非公開モデルのGemini-UltraやGPT-4が優れた性能を示す一方で、オープンソースモデルのOpenCI-DS-33Bも高い能力を発揮することが明らかになった。また、モデルの得意分野に差があり、デバッグやトランスレーションでは優れるが、最適化では課題があるなど、モデルの特性が課題によって異なることが分かった。
CodeEditorBenchは、大規模言語モデルのコード編集能力の向上に貢献し、研究者や実務家にとって有用なリソースとなることが期待される。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jiawei Guo,Z... a las arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03543.pdfConsultas más profundas