Untersuchung der Datenkontamination in modernen Benchmarks für große Sprachmodelle
Große Sprachmodelle zeigen oft aufgeblähte Benchmark-Ergebnisse, die ihre tatsächliche Leistung übersteigen. Dies könnte auf eine Kontamination der Evaluierungsbenchmarks durch Trainingsdaten hinweisen.