核心概念
SM3-Text-to-Query是一個基於合成數據的多模型醫學文本到查詢基準測試,它提供了跨越關係型數據庫、文檔數據庫和圖形數據庫的多種查詢語言的評估,揭示了不同數據庫模型、查詢語言和文本到查詢方法之間的表現差異和權衡。
摘要
SM3-Text-to-Query:基於合成數據的多模型醫學文本到查詢基準測試
導言
近年來,越來越多研究專注於開發將自然語言轉換為數據庫查詢語句的「文本到查詢」系統,特別是在醫療領域,這些系統有望讓不熟悉數據庫查詢語言的醫護人員也能輕鬆查詢電子病歷。然而,現有的文本到查詢數據集和基準測試通常只關注單一數據庫模型和查詢語言,忽略了不同數據庫模型和查詢語言對系統性能的影響。
SM3-Text-to-Query 的主要特點
為了解決這個問題,本文提出了 SM3-Text-to-Query,這是一個基於合成數據的多模型醫學文本到查詢基準測試,它具有以下主要特點:
- 基於標準且保護隱私: SM3-Text-to-Query 使用 Synthea 合成病人數據生成器創建,不涉及真實病人數據,保護了隱私。數據模型遵循 SNOMED-CT 醫學術語體系,確保了基準測試在全球醫療保健領域的廣泛適用性。
- 支持三種數據庫模型和四種查詢語言: SM3-Text-to-Query 提供了四種數據庫的數據表示:PostgreSQL(關係型數據庫)、MongoDB(文檔數據庫)、Neo4j 和 GraphDB(圖形數據庫),並支持 SQL、MQL、Cypher 和 SPARQL 四種查詢語言,允許開發者評估不同數據庫模型和查詢語言對文本到查詢系統性能的影響。
- 系統且可擴展的問題生成方法: 研究人員系統地手工創建了 408 個涵蓋 Synthea 數據主要實體和屬性的模板問題,並通過參數化採樣方法自動擴展和豐富這些模板問題,構建了一個包含 10,000 個自然語言問題/查詢對的基準測試集(每種查詢語言 10,000 個,總共 40,000 個)。這種方法易於擴展,可以通過添加新的模板問題或使用真實的、基於標準的病人數據庫來適應不同的應用場景。
數據集分析和比較
SM3-Text-to-Query 數據集包含 40,000 個文本/查詢對,涵蓋了 19 個不同的問題類別。通過分析數據集,研究人員發現不同查詢語言的查詢複雜度存在顯著差異,例如 SPARQL 查詢的詞彙量和關鍵字數量最多,而 Cypher 查詢則最為簡潔。與其他醫學文本到查詢數據集相比,SM3-Text-to-Query 的查詢複雜度更高,特別是在 MQL 和 SPARQL 查詢方面。
基線實驗評估
為了評估大型語言模型(LLM)在將自然語言問題轉換為不同查詢語言方面的性能,研究人員使用四種常見的開源和閉源 LLM 進行了實驗,並採用了相同的上下文學習(ICL)提示策略。實驗結果表明,模式信息對所有查詢語言的準確性都有幫助,但程度不同。添加示例可以通過 ICL 提高所有 LLM 和查詢語言的準確性,但改進程度因查詢語言而異。LLM 在不同查詢語言上的表現也存在差異,這可能與它們的訓練數據有關。
結論
SM3-Text-to-Query 是一個基於合成數據的多模型醫學文本到查詢基準測試,它為評估和比較不同文本到查詢方法在不同數據庫模型和查詢語言上的性能提供了一個有價值的平台。該基準測試的發布將促進醫學文本到查詢領域的進一步研究和發展。
統計資料
SM3-Text-to-Query 數據集包含 10,000 個文本/查詢對,涵蓋了 19 個不同的問題類別,並支持 SQL、MQL、Cypher 和 SPARQL 四種查詢語言。
SPARQL 查詢的詞彙量和關鍵字數量最多,而 Cypher 查詢則最為簡潔。
MQL 查詢的嵌套深度最高,而 SPARQL 查詢的連接和遍歷操作最多。
在 Stack Overflow 上,與 SQL 相關的帖子數量最多(673K),其次是 MongoDB 和 MQL(176K),然後是 Cypher 和 Neo4j(33K),最後是 SPARQL(6K)。
使用基於相似度的 few-shot 示例選擇方法可以將 SQL 的執行準確率提高到 88.55%。
引述
"While the relational model and the SQL query language are still the primary choice for EHRs [22], there has been an increased interest in document and graph database models due to their schema flexibility and natural capacity to interconnect data sources across data silos [37, 11, 7]."
"The choice of database and the underlying core data model (relational, document, graph) has a large impact on read/write performance and query complexity."
"Text-to-Query systems have seen a recent growth in the number of developed methods and new high scores, mainly due to the transformer architecture and advances in Large Language Models (LLMs) [17]."