本論文では、SWE-benchと呼ばれる新しい評価フレームワークを紹介する。SWE-benchは、人気のあるPythonリポジトリから収集した2,294個の実際のGitHubイシューと、それらを解決するためのマージされたプルリクエストから構成される。
モデルには、コードベースと問題の説明が与えられ、コードベースを編集してその問題を解決するパッチを生成することが求められる。評価は、生成されたパッチをコードベースに適用し、関連するテストに合格するかどうかで行われる。
SWE-benchには以下のような特徴がある:
実験の結果、最先端の言語モデルでも、SWE-benchの問題の1.96%しか解決できないことが分かった。SWE-Llamaと呼ばれる細かいチューニングモデルも、わずかな問題しか解決できなかった。これらの結果は、言語モデルがまだ実用的な自律的なソフトウェア開発アシスタントとなるには程遠いことを示している。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Carlos E. Ji... klokken arxiv.org 04-09-2024
https://arxiv.org/pdf/2310.06770.pdfDypere Spørsmål