核心概念
大規模言語モデルを活用し、関連する文章の検索と生成を組み合わせることで、効果的な関係抽出を実現する。
摘要
本研究では、関係抽出タスクの性能向上を目的として、検索支援型生成アプローチ(RAG4RE)を提案している。
RAG4REは以下の3つのモジュールから構成される:
- 検索モジュール: ユーザーの入力文とエンティティに関連する類似文を検索する。
- データ拡張モジュール: 検索された類似文をユーザーの入力文に付加し、プロンプトを生成する。
- 生成モジュール: 拡張されたプロンプトを大規模言語モデルに入力し、関係タイプを生成する。
提案手法の評価では、TACRED、TACREV、Re-TACRED、SemEVALの各ベンチマークデータセットを使用し、Flan T5、Llama2、Mistralなどの言語モデルを組み合わせて実験を行った。
その結果、RAG4REは単純なプロンプティングよりも高い精度を示し、特にTACRED、TACREV、Re-TACREDデータセットにおいて優れた性能を発揮した。一方、SemEVALデータセットでは課題が残った。これは、SemEVALの関係タイプが文中のトークンから直接抽出できないためと考えられる。
统计
関係抽出タスクは情報抽出の重要な部分を占める。
大規模言語モデルを活用した関係抽出手法は、大量の教師データと計算リソースを必要とする。
提案手法のRAG4REは、関連文章の検索と生成を組み合わせることで、これらの課題に対処している。
引用
"Information Extraction (IE) is a transformative process that converts unstructured text data into a structured format by employ-ing entity and relation extraction (RE) methodologies."
"Large Language Models (LLMs) possess incredible inference capabilities that enable them to address key tasks in IE, such as Entity Recognition (ER) and RE. Nevertheless, their abilities are restricted by their training data; therefore, they are prone to producing hallucinating results when lacking prior knowledge."