本文提出了 FLEX (False-Less EXecution),一種利用大型語言模型 (LLM) 進行文本到 SQL 系統評估的新方法。現有的 Execution Accuracy (EX) 指標容易出現假陽性和假陰性,無法準確評估模型的性能。
FLEX 通過分析生成的 SQL 查詢與原始問題的語義一致性,提供了更全面的查詢正確性評估。與人類專家評估相比,FLEX 的一致性顯著提高,Cohen's kappa 從 61 提高到 78.17。
使用 FLEX 重新評估 Spider 和 BIRD 基準測試中的頂級模型,發現與 EX 指標相比,模型排名出現了顯著變化。平均性能下降 3.15 是由於修正了假陽性,而增加 6.07 是由於解決了假陰性。這些結果突出了 FLEX 提供更準確和細緻的文本到 SQL 系統評估的重要性。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Heegyu Kim, ... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19014.pdfYêu cầu sâu hơn