Core Concepts
Großen Sprachmodellen für Code (d.h. Code-LLMs) mangelt es an der Fähigkeit, das Laufzeitverhalten von Programmen zu verstehen und logisch konsistent zu sein.
Abstract
Der Artikel stellt einen neuen Evaluierungsrahmen namens REval vor, um die Fähigkeiten von Code-LLMs umfassend zu bewerten. REval besteht aus zwei Komponenten:
Laufzeitverhalten-Reasoning: Hier werden vier Aufgaben definiert, um zu evaluieren, wie gut Code-LLMs das Laufzeitverhalten von Programmen wie Codeabdeckung, Programmzustand, Ausführungspfad und Ausgabe vorhersagen können.
Inkrementelle Konsistenz-Evaluation: Hier wird eine neue Metrik namens "Inkrementelle Konsistenz" eingeführt, um zu messen, inwieweit ein Modell seine logische Konsistenz über sequenziell verwandte Aufgaben mit zunehmender Schwierigkeit aufrechterhalten kann.
Eine groß angelegte empirische Studie zeigt, dass die meisten getesteten LLMs, einschließlich leistungsstarker Code-LLMs, bei beiden Evaluierungskomponenten unbefriedigende Leistungen zeigen. Dies unterstreicht die Notwendigkeit, die Fähigkeiten von Code-LLMs zum Laufzeitverhalten-Reasoning und zur logischen Konsistenz zu verbessern.
Stats
Die durchschnittliche Genauigkeit der Runtime Behavior Reasoning beträgt 44,4%.
Der durchschnittliche Inkrementelle Konsistenz-Score beträgt 10,3.
Quotes
"Großen Sprachmodellen für Code (d.h. Code-LLMs) mangelt es an der Fähigkeit, das Laufzeitverhalten von Programmen zu verstehen und logisch konsistent zu sein."
"Evaluationsergebnisse aktueller Code-LLMs zeigen den dringenden Bedarf der Community, die Fähigkeiten zum Code-Reasoning von Code-LLMs zu stärken."