核心概念
本文提出了一種名為 QDA-SQL 的新型資料增強方法,利用大型語言模型生成多種類型的多輪次問答對,以增強模型在多輪次文字到 SQL 語法轉換任務中的效能,特別是在處理複雜和無法回答的問題方面。
統計資料
QDA-SQL 基於 SParC 和 CoSQL 訓練集生成了 10,874 個對話,包含 65,393 個輪次。
與原始資料集相比,QDA-SQL 生成的增強資料集中的 SQL 語句具有更大的抽象語法樹深度,表明 QDA-SQL 可以生成更複雜的查詢。
QDA-SQL 生成的增強資料集的對話長度也比原始資料集更長,創造了更具挑戰性的場景。
Gemini Pro 準確識別了 94% 的錯誤分類樣本,表明自動過濾過程在提高資料品質方面是有效的。
與人工標註的原始 SParC 和 CoSQL 訓練集相比,QDA-SQL 增強資料集在完整性、相關性和效用方面表現更出色,其中 62% 的 QDA-SQL 增強資料集被認為優於原始資料集。
使用 QDA-SQL 生成的增強資料集微調的模型在處理高難度問題和多輪次對話方面表現出顯著的改進。
引述
"現有方法主要關注增強大型語言模型的 SQL 生成能力,而沒有考慮多種類型的問題。這可能導致模型對無法使用 SQL 回答的問題給出錯誤的響應。"
"我們的研究致力於利用大型語言模型來改進文字到 SQL 語法轉換的資料增強技術,生成更多樣化和自然的訓練樣本,從而增強其實用性。"