核心概念
MoMQ 是一個基於混合專家模型的多方言資料庫查詢生成框架,旨在解決跨關係型和非關係型資料庫的查詢生成問題,特別是在資料不平衡的情況下。
摘要
本文介紹了 MoMQ,這是一個基於混合專家模型 (MoE) 的多方言資料庫查詢生成框架,適用於關係型和非關係型資料庫。MoMQ 為每種方言使用特定的專家群組,以隔離方言特定的知識並減少生成過程中的干擾。為了處理多方言資料不平衡問題,MoMQ 引入了一個共享專家群組,以增強從高資源方言到低資源方言的通用知識轉移。此外,MoMQ 還設計了一個由方言路由器和專家路由器組成的多級路由策略,以確保在詞彙級別的正確路由。方言路由器在方言路由器損失的幫助下增強了專家群組之間的知識轉移。研究人員構建了一個高質量的多方言資料集,涵蓋 MySQL、PostgreSQL、Neo4j 的 Cypher 和 NebulaGraph 的 nGQL。程式碼和多方言資料集將公開發布,以支援該領域的進一步研究。
研究背景
將自然語言轉換為結構化查詢語言 (SQL) 的能力使得與關係資料庫管理系統的交互變得更加容易。近年來,大型語言模型 (LLM) 的使用顯著改善了 SQL 生成任務。這種轉變增強了生成查詢的質量,從基於編碼器-解碼器的方法轉向由 LLM 驅動的方法。與封閉原始碼 LLM 相比,經過監督微調的開源 LLM 由於其較低的資料隱私風險和成本而成為主要方法。這些 LLM 通常設計為與特定的資料庫方言(如 MySQL)配合使用效果最佳。然而,對於雲端運算中的通用資料庫管理服務,需要支援大多數方言的 LLM。因此,SQL 生成 LLM 不僅應涵蓋 MySQL 和 PostgreSQL 等主要方言,還應涵蓋 Neo4j 和 NebulaGraph 等非關係圖資料庫。
研究問題
多方言查詢生成面臨著 LLM 的挑戰,這些挑戰包括方言之間的語法差異以及跨多種方言的資料分佈不平衡。
研究方法
為了應對這些挑戰,本文提出了 MoMQ,這是一個基於混合專家 (MoE) 的新型多方言查詢生成框架,涵蓋關係型和非關係型資料庫。MoMQ 為每種方言採用方言專家群組和多級路由策略來處理方言特定的知識,減少查詢生成過程中的干擾。此外,還引入了一個共享專家群組來解決資料不平衡問題,促進通用知識從高資源方言到低資源方言的轉移。
實驗結果
在完整資料設定中,與基準相比,MoMQ 在所有資料庫方言上的執行準確率平均提高了 3-5%。在資料不平衡設定中,大多數方言的執行準確率平均提高了 4-6%。這些發現證實了 MoMQ 在處理不同資料庫方言的方言干擾和資料不平衡方面的有效性。
研究結論
MoMQ 是一種基於混合專家模型的多方言資料庫查詢生成框架,可以有效提高開源大型模型的多方言生成能力。該框架通過特定於方言的專家群組結構和多級路由機制,顯著增強了多方言生成能力,並自適應地實現了方言之間共享知識的轉移。
統計資料
在完整資料設定中,與基準相比,MoMQ 在所有資料庫方言上的執行準確率平均提高了 3-5%。
在資料不平衡設定中,大多數方言的執行準確率平均提高了 4-6%。
對於 15 億參數模型,MySQL 和 nGQL 的執行準確率提高了近 10%。
在 MySQL 高資源設定中,140 億參數模型的四種方言的平均執行準確率平均提高了近 5%。
在專家維度為 128 時,MoMQ 的平均執行準確率最高,為 49.15%。