本文提出了 FLEX (False-Less EXecution),一種利用大型語言模型 (LLM) 進行文本到 SQL 系統評估的新方法。現有的 Execution Accuracy (EX) 指標容易出現假陽性和假陰性,無法準確評估模型的性能。
FLEX 通過分析生成的 SQL 查詢與原始問題的語義一致性,提供了更全面的查詢正確性評估。與人類專家評估相比,FLEX 的一致性顯著提高,Cohen's kappa 從 61 提高到 78.17。
使用 FLEX 重新評估 Spider 和 BIRD 基準測試中的頂級模型,發現與 EX 指標相比,模型排名出現了顯著變化。平均性能下降 3.15 是由於修正了假陽性,而增加 6.07 是由於解決了假陰性。這些結果突出了 FLEX 提供更準確和細緻的文本到 SQL 系統評估的重要性。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania