Kernkonzepte
本文提出一種結合SPARQL查詢、分治算法和基於BERT的預測的方法,以有效地回答來自不同學術資料來源的問題。
Zusammenfassung
本文描述了一種用於解決學術混合問答挑戰的方法。該方法包括以下步驟:
-
資料處理和查詢執行:
- 對SemOpenAlex知識圖譜執行SPARQL查詢,獲取作者和機構相關資訊。
- 清理和整理資料,移除噪音和無關資訊。
-
分治方法:
- 根據問題是否涉及多個作者標識符,將測試資料分段處理。
- 進一步將問題分類為關於個人作者或作者機構的問題。
- 針對不同類型的問題,設計更細緻的子查詢。
-
資料檢索和聚合:
- 生成包含作者詳細資訊的CSV文件。
- 將CSV轉換為JSON格式,移除重複項。
- 將查詢結果與初始預測和大型語言模型生成的回答進行整合和優化。
-
基於大型語言模型的預測:
- 使用BERT-base-cased-squad2模型,根據SPARQL查詢結果生成的上下文進行預測,以回答個人作者相關的問題。
- 將LLM生成的回答與初始查詢結果進行整合,提高答案的準確性和完整性。
-
評估和最終化:
- 將最終結果提交到組織者提供的評估平台,使用Exact Match和F-score指標進行評估。
- 對方法進行實驗和討論,分析其優缺點。
總的來說,本文提出的方法通過整合SPARQL查詢和大型語言模型預測,有效地解決了學術問答的複雜性,並取得了良好的結果。未來的工作將專注於進一步提高模型的泛化能力,並探索更複雜的規則系統以進一步改進系統的性能。
Statistiken
我們發現,為了管理作者、機構、附屬機構和出版物等複雜的查詢,需要整合SPARQL查詢和LLM預測。
BERT-base-cased-squad2模型與DPR算法的結合顯著提高了在DBLP知識圖譜上的實體和關係提取的準確性。這些信息是LLM預測所需的上下文。
為了處理完整的數據集,我們採用了DPR算法,以便能夠處理數據集中所有被破壞的部分。