Concepts de base
本研究では、SPARQLクエリ、分割統治アルゴリズム、BERT ベースのケース SQuAD2予測を組み合わせた手法を提案し、学術コンテキストにおける質問応答の精度と効率性の向上を示す。
Résumé
本論文は、2024年のISWC (International Semantic Web Conference) で開催される「Scholarly Hybrid Question Answering over Linked Data (QALD) Challenge」に取り組むための手法を提案している。
この手法は以下の主な手順で構成される:
-
データ処理とクエリ実行:
- SemOpenAlexのauthorsとinstitutionsに対してSPARQLクエリを実行し、データを収集する。
- データを清掃し、ノイズを除去する。
- 質問を分析し、キーワードを抽出する。
-
分割統治アプローチ:
- 質問を著者に関するものと著者の所属機関に関するものに分類する。
- 著者に関する質問をさらに細かく分類し、詳細な情報を取得する。
-
データ取得と集約:
- SPARQLクエリの結果をCSVファイルに保存し、重複を除去してJSONに変換する。
- 各質問に対する答えを統合し、精度と完全性を高める。
-
LLMベースの予測:
- BERT-base-cased-squad2モデルを使用して、著者に関する個人的な質問に対する予測を行う。
- SPARQLクエリの結果を文脈として利用する。
- LLMの予測結果を最終的な答えに統合する。
-
評価と最終化:
- 提案手法をテストデータに適用し、Exact MatchとF-scoreで評価する。
- 最終的な答えを生成する。
全体として、この手法は学術データソースからの質問応答の精度と効率性を向上させることが示されている。特に、SPARQLクエリとLLMの予測を組み合わせることで、複雑な質問に対する答えの生成が可能になった。今後の課題としては、モデルの一般化能力の向上や、ルールベースシステムとの統合などが挙げられる。
Stats
SemOpenAlexのデータセットのクエリ実行には62-65時間かかった。
メモリ不足により、一部のクエリが中断された。