Analyse der Auswirkungen von Rauschen in Text-zu-SQL-Übersetzungen: Eine Untersuchung des BIRD-Bench-Benchmarks
Die Studie zeigt, dass Rauschen in Fragen und SQL-Abfragen in dem weit verbreiteten BIRD-Bench-Benchmark weit verbreitet ist und ungleichmäßig über Domänen und Rauschtypen verteilt ist. Fehler in den Gold-SQL-Abfragen beeinträchtigen die Zuverlässigkeit des Benchmarks erheblich. Überraschenderweise übertreffen Basismodelle mit Zero-Shot-Prompting die Leistung fortschrittlicher Prompting-Methoden, wenn die SQL-Abfragen korrigiert werden.