Core Concepts
コードLLMの理解能力と推論能力を評価する新しいフレームワークREvalが提案されました。
Abstract
大規模な言語モデルによるコード(つまり、コードLLM)の能力評価に関する研究。
REvalフレームワークは、Runtime Behavior ReasoningとIncremental Consistency Evaluationの2つの評価要素から構成されています。
Runtime Behavior Reasoningでは、Code Coverage Prediction(CCP)、Program State Prediction(PSP)、Execution Path Prediction(EPP)、Output Prediction(OP)など4つのタスクが提案されています。
Incremental Consistency Evaluationでは、モデルが連続したタスクで一貫性を保持できるかどうかが評価されます。
GPT-4-Turboが最も優れた結果を示し、全体的には大きな変動が見られます。
Stats
大規模な言語モデルは平均精度で75.0%を達成しました。
CodeLlama-34B-InstructはRuntime Behavior Reasoningで51.0%の平均精度を達成しました。
Gemma-2B-ItはIncremental Consistencyで5.5のスコアを獲得しました。
Quotes
"大規模な言語モデルはプログラム推論において明確な優位性を示しています。"
"REvalフレームワークは、CodeLlamaシリーズにおけるパラメータサイズの影響を示しています。"