Основні поняття
本稿では、コード関連タスクの品質、特に「有用性」を評価するための、自動生成されたベンチマークとLLM(Large Language Model)を用いた評価手法を提案する。
本稿は、コード関連タスクの品質、特に「有用性」を評価するための、自動生成されたベンチマークとLLM(Large Language Model)を用いた評価手法を提案する論文です。
LLMは、コードの翻訳、自然言語要件の実装、コードの要約など、さまざまなコード関連タスクに使用できます。しかし、LLMが生成したコードの品質を判断することは容易ではありません。従来の評価指標は、実行可能なテストケースの作成が難しい複雑なタスクには不向きであり、人間の判断に頼る方法は労働集約的です。