Die Studie untersucht systematisch die Auswirkungen verschiedener Gegenmaßnahmen auf die Leistung von Code-Sprachmodellen (CLMs). Dafür wurden 2,493,174 Python-Funktionen aus dem Zeitraum vom 1. Januar 2018 bis 31. Dezember 2023 gesammelt.
RQ1 untersucht den Einfluss von neueren Daten (nach dem Abschlussdatum der Modelltrainings) als Gegenmaßnahme. Die Ergebnisse zeigen, dass CLMs auf neueren Daten nicht unbedingt schlechter abschneiden, sondern teilweise sogar besser. Dies deutet darauf hin, dass die Verwendung neuerer Daten nicht immer effektiv ist, um Datenkontamination zu verringern.
RQ2 analysiert den Einsatz kuratierter Datensätze wie HumanEval und CoderEval als Gegenmaßnahme. Interessanterweise schneiden die CLMs auf diesen Datensätzen besser ab als auf den kontaminierten Daten. Dies legt nahe, dass auch kuratierte Datensätze die Datenkontamination nicht unbedingt verringern.
RQ3 untersucht den Einfluss von Refaktorisierung der kontaminierten Daten. Die Ergebnisse zeigen, dass Refaktorisierung nicht immer zu einer Verschlechterung der Leistung führt, sondern sogar zu Verbesserungen führen kann. Semantische Refaktorisierungen wie Umbenennung von Bezeichnern haben einen größeren Einfluss als syntaktische Änderungen.
RQ4 zeigt, dass gängige Metriken wie Perplexität nicht in der Lage sind, kontaminierte und bereinigte Daten zu unterscheiden.
Insgesamt deuten die Ergebnisse darauf hin, dass die derzeitigen Gegenmaßnahmen nicht immer effektiv sind, um die Datenkontamination in der Bewertung von CLMs zu verringern. Die Studie liefert wichtige Erkenntnisse, um das Verständnis der Fähigkeiten von CLMs zu vertiefen und die Community für das Problem der Datenkontamination zu sensibilisieren.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jialun Cao,W... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16898.pdfDeeper Inquiries