核心概念
本文提出了一種基於實體強化的方法,將自然語言查詢轉換為資料庫查詢,並著重於針對特定領域專家的查詢系統。
本研究論文介紹了一種針對領域專家設計的資料庫查詢系統,旨在為法國企業的客戶提供自然語言介面。該方法基於實體強化,目標是將自然語言查詢轉換為資料庫查詢。論文中採用邏輯範式處理資料庫,表明該方法適用於不同的資料庫模型。初步實驗結果顯示,該方法具有良好的準確性。
研究背景
圖形資料庫查詢系統越來越受到重視,尤其是在領域專家而非僅限於資料庫專家使用的情況下。現有的查詢語言,如 SPARQL 或 CYPHER,功能強大,但需要使用者了解資料庫結構才能檢索資訊。為了簡化此類資料庫的訪問,自然語言介面 (NLI) 的研究備受關注。 NLI 的理念是讓使用者專注於他們想要查詢的語義,而不是如何檢索它。
研究方法
本論文描述了一個針對 RDF 資料庫的簡單自然語言查詢的實用解決方案,該方案是為法國一家專注於為生命科學行業構建軟體解決方案的企業 Ennov 的客戶開發的。該方案側重於企業需求,即關於一個 RDF“類別”實例的事實查詢,但取得了良好的結果,允許 (i) 將其應用於其他領域,以及 (ii) 將其理念擴展到更複雜的查詢。該方案包括將給定的自然語言查詢(表示為 NL-query)轉換為資料庫查詢(表示為 DB-query)。在本文中,我們使用邏輯形式主義來表達資料庫和 DB-query,這些資料庫和 DB-query 可以很容易地轉換為任何圖形或關係模型(以及 SQL、SPARQL 等上的查詢)。
實體強化方法
本論文的核心貢獻在於提出了一種基於實體強化的原始方法,用於將 NL-query 轉換為 DB-query。實體提取是自然語言處理 (NLP) 的一個子任務,包括識別非結構化文本中代表命名實體的部分。在識別與特定領域相關的實體後,可以將其分類為不同的實體類型。根據這種分類,其中一些實體被合併,並獲得一組強化的實體。DB-query 是根據這組強化的實體構建的。
系統架構
該方法由兩個不同的階段組成:特定領域的預處理步驟和通用的查詢生成步驟。預處理步驟建立指導查詢轉換的通用環境:詞彙表(部分)根據資料庫中存儲的資訊構建,語法和本體映射也已設定。查詢生成演算法對提取的實體進行分類和強化,然後將獲得的強化實體集轉換為資料庫查詢。
系統評估
該查詢系統在一個存儲有關醫學文獻資訊的 RDF 資料庫上可用。該系統將 NL-query 轉換為 DB-query,提供了一個使用者友好的介面。初步實驗結果顯示,該系統具有良好的準確性。
統計資料
該資料庫有 66 個類別(可能是查詢太陽類別的候選類別),共有 29327 個類別實例。
在測試中,大約有 10 個類別被用作太陽類別。
這些測試考慮了實體提取和強化階段。
測試中沒有考慮歧義,因此每個實體只考慮一個值。
評估是通過分析獲得的強化實體來完成的。
測試集包含 113 個自然語言查詢(包含不同數量的 and 和 or)。