Core Concepts
Code-Sprachmodelle haben Schwierigkeiten, Fälschungen zu verstehen und zu reparieren.
Abstract
Einleitung
Sprachmodelle wie CodeLlama und GPT-4 generieren sowohl korrekten als auch fehlerhaften Code.
Fokus auf "Fälschungen": Programme, die von Modellen als korrekt angesehen werden, aber subtile Fehler enthalten.
Experimentelle Einrichtung
Generierung von Fälschungen aus verschiedenen Datensätzen.
Bewertung von Korrektheit, Ausführung und Reparatur von Fälschungen.
Können Code-Sprachmodelle Fälschungen verstehen?
Modelle haben Schwierigkeiten, Fälschungen zu erkennen und korrekt zu bewerten.
GPT-4 zeigt bessere Leistung, aber auch Fehler.
Reparatur
Modelle haben Schwierigkeiten, Fälschungen zu reparieren, selbst ohne Ausführungsinformationen.
Unterschiede zwischen Modellen und Problemen
Korrektheitsprüfung ist unabhängig von der Schwierigkeit des Problems, während Ausführung und Reparatur leicht korrelieren.
Modelle und ihre eigenen Fälschungen
Modelle haben ähnliche Schwierigkeiten mit ihren eigenen und anderen Modellen generierten Fälschungen.
Stärkere Modelle und schwierigere Fälschungen
Starke und schwache Modelle generieren gleichermaßen schwierige Fälschungen.
Stats
Viele der Fälschungen sind durch subtile Implementierungsfehler gekennzeichnet.
Modelle haben Schwierigkeiten, Fälschungen von korrekten Programmen zu unterscheiden.
GPT-4 zeigt bessere Leistung bei der Korrektheitsprüfung von Fälschungen.
Quotes
"Modelle haben Schwierigkeiten, Fälschungen zu erkennen und korrekt zu bewerten."
"GPT-4 zeigt bessere Leistung, aber auch Fehler."