核心概念
本研究提出了一種名為E-SQL的新管線,透過直接將相關資料庫項目和可能條件納入自然語言問題,來解決文字到SQL轉換任務中的資料庫架構連結挑戰。
要約
本研究提出了E-SQL,一種專門設計用於解決文字到SQL轉換任務中的挑戰的新管線。E-SQL包含以下四個主要模組:
候選SQL生成(CSG)模組:生成初步的SQL查詢。
候選謂語生成(CPG)模組:從生成的SQL查詢中提取值和操作,並使用LIKE運算符從資料庫中找到相似的值,構建候選謂語。
問題豐富化(QE)模組:指示語言模型將相關的資料庫項目(如表、列和值)和條件直接納入問題中,以增強問題與資料庫架構的連結。
SQL改進(SR)模組:利用豐富的問題、候選謂語和任何識別的執行錯誤,生成新的SQL查詢或改進現有的候選SQL查詢。
實驗結果表明,E-SQL在處理複雜查詢方面特別出色,在BIRD基準測試的測試集上達到了66.29%的執行準確率。此外,我們的實驗還發現,當與先進的大型語言模型一起使用時,傳統的資料庫架構過濾技術可能會降低性能。
統計
在GPT-4o-mini模型上,E-SQL管線在開發集上的整體執行準確率為61.60%。
在GPT-4o模型上,E-SQL管線在測試集上的整體執行準確率為66.29%。
在GPT-4o-mini模型上,E-SQL管線在簡單、中等和困難問題上的執行準確率分別為67.44%、56.94%和40.00%。
在GPT-4o模型上,E-SQL管線在簡單、中等和困難問題上的執行準確率分別為73.02%、64.14%和48.07%。
引用
"本研究提出了一種名為E-SQL的新管線,透過直接將相關資料庫項目和可能條件納入自然語言問題,來解決文字到SQL轉換任務中的資料庫架構連結挑戰。"
"實驗結果表明,E-SQL在處理複雜查詢方面特別出色,在BIRD基準測試的測試集上達到了66.29%的執行準確率。"
"此外,我們的實驗還發現,當與先進的大型語言模型一起使用時,傳統的資料庫架構過濾技術可能會降低性能。"