核心概念
大学の教育データを横断的に活用し、ナレッジグラフを構築することで、大規模言語モデルを用いた質問応答システムの性能を向上させることができる。
要約
本研究では、ベトナムのHCMUT大学における教育データを活用し、ナレッジグラフの構築手法を提案している。教育データには、構造化されたテキスト、非構造化テキスト、データベース、APIアクセスなど、多様なソースが存在する。
まず、教育分野における「オープンインテント」の発見手法であるE-OED(Educational Open Entity Discovery)フレームワークを提案した。これは、教育分野の質問応答システムにおいて重要な役割を果たす。次に、エンティティ間の関係発見のためのエンベディング ベースの手法を開発した。最後に、構築したナレッジグラフと大規模言語モデルを統合したQA システムを実装し、HCMUT大学で実験的に検証した。
本研究の成果は、教育分野における大規模言語モデルの活用を促進し、より効果的な質問応答システムの実現に貢献する。
統計
教育分野では、学生の質問や要望が多様で、固定された意図だけでは対応が難しい。
HCMUT大学のFAQデータから284のクラスターを発見し、372の教育分野のオープンインテントを抽出した。
エンティティ間の613の関係を発見し、そのうち22の重要な関係が見落とされていた。
引用
「大学の教育データは、構造化されたテキスト、非構造化テキスト、データベース、APIアクセスなど、多様なソースから成る」
「教育分野における『オープンインテント』の発見は、質問応答システムにとって重要な役割を果たす」
「構築したナレッジグラフと大規模言語モデルを統合したQAシステムを実装し、HCMUT大学で実験的に検証した」