核心概念
CodeEditorBenchは、大規模言語モデルのコード編集能力を包括的に評価するための新しい評価フレームワークである。デバッグ、翻訳、最適化、要件変更などの実世界のコード編集タスクを網羅し、19種類の大規模言語モデルの性能を詳細に分析している。
要約
CodeEditorBenchは、大規模言語モデルのコード編集能力を包括的に評価するための新しい評価フレームワークである。主な特徴は以下の通り:
- コード生成に加え、デバッグ、翻訳、最適化、要件変更などの実世界のコード編集タスクを網羅している。
- 5つのデータソースから7,961個のコード編集課題を収集し、平均44個のテストケースを用意している。
- オープンソースモデルと非公開モデルの19種類を評価し、性能の違いを分析している。
- ゼロショット、スリーショット、チェインオブソーの3つの評価手法を用いている。
- オンラインジャッジシステムを構築し、厳密な評価を行っている。
評価の結果、非公開モデルのGemini-UltraやGPT-4が優れた性能を示す一方で、オープンソースモデルのOpenCI-DS-33Bも高い能力を発揮することが明らかになった。また、モデルの得意分野に差があり、デバッグやトランスレーションでは優れるが、最適化では課題があるなど、モデルの特性が課題によって異なることが分かった。
CodeEditorBenchは、大規模言語モデルのコード編集能力の向上に貢献し、研究者や実務家にとって有用なリソースとなることが期待される。
統計
コード編集タスクの平均テストケース数は44個
コード編集タスクの最小テストケース数は8個、最大446個