แนวคิดหลัก
TrustSQL ist ein neuer Benchmark, der die Zuverlässigkeit von Text-zu-SQL-Modellen in Einzel- und Mehrfachdatenbankumgebungen bewertet. Der Benchmark umfasst sowohl beantwortbare als auch nicht beantwortbare Fragen, um die Fähigkeit der Modelle zu testen, Schäden zu vermeiden und gleichzeitig Nutzen zu stiften.
บทคัดย่อ
Der Artikel präsentiert TrustSQL, einen neuen Benchmark zur Bewertung der Zuverlässigkeit von Text-zu-SQL-Modellen. Im Gegensatz zu bisherigen Benchmarks, die sich hauptsächlich auf die Genauigkeit der SQL-Generierung konzentrieren, berücksichtigt TrustSQL auch die Fähigkeit der Modelle, nicht beantwortbare Fragen zu erkennen und darauf zu reagieren.
Der Benchmark umfasst zwei Szenarien: Einzel- und Mehrfachdatenbanken. Er enthält sowohl beantwortbare als auch nicht beantwortbare Fragen, die manuell in fünf Kategorien eingeteilt wurden: oberflächlich, datenbankbezogen, datenbankfern, nicht-SQL und außerhalb des Bereichs.
Für die Modellbewertung führt TrustSQL zwei Ausgabeoptionen ein: SQL-Vorhersage oder Abstention. Die Zuverlässigkeit wird anhand einer neuen Metrik, dem Zuverlässigkeitsscore, gemessen, der korrekte SQL-Vorhersagen und das richtige Erkennen nicht beantwortbarer Fragen belohnt, aber falsche SQL-Vorhersagen und den Versuch, nicht beantwortbare Fragen zu beantworten, bestraft.
Die Experimente zeigen, dass die Bewältigung dieser Herausforderung verschiedene Modellierungsansätze erfordert und neue Entwicklungsmöglichkeiten für Modelle eröffnet. Keiner der getesteten Ansätze übertrifft jedoch die Zuverlässigkeitsleistung der naiven Baseline, die alle Fragen nicht beantwortet.
สถิติ
Keinen relevanten Statistiken oder Kennzahlen in den Inhalten gefunden.
คำพูด
Keine auffallenden Zitate in den Inhalten gefunden.