Grunnleggende konsepter
長文書籍から、特定の主語と関係に基づいた長いオブジェクトリストを効率的に抽出する手法を提案する。
Sammendrag
本研究は、長文書籍から特定の主語と関係に基づいた長いオブジェクトリストを抽出する新しい課題に取り組んでいる。提案手法「L3X」は以下の2段階で構成される:
再現率重視の生成段階:
大規模言語モデル(LLM)を用いて主語と関係を入力として、オブジェクトのリストを生成する。
情報検索システムを活用し、関連性の高い文章を検索し、LLMの入力として活用することで、生成精度を向上させる。
文章の再ランキングと再プロンプティングを繰り返し行い、オブジェクトリストの再現率を高める。
精度重視の精査段階:
第1段階で生成された高再現率のオブジェクトリストを、様々な手法で精査し、信頼性の高いオブジェクトを選別する。
支持となる文章の検索、分類器の構築などを行い、精度の高いオブジェクトリストを出力する。
実験では、10冊の書籍と8つの関係を対象とした新規ベンチマークデータセットを構築し、提案手法の有効性を示した。特に、再現率@精度80%の指標で30%を達成し、LLMのみの手法を大きく上回る結果を得た。
Statistikk
主語「ハリー・ポッター」に対して、57人の友人が登場する。
主語「アルファベット社」に対して、子会社や買収先が147社ある。
主語「ボブ・ディラン」に対して、カバーアーティストが61組ある。
Sitater
"長文書籍から、特定の主語と関係に基づいた長いオブジェクトリストを効率的に抽出する手法を提案する。"
"提案手法「L3X」は再現率重視の生成段階と精度重視の精査段階の2段階で構成される。"
"実験では、10冊の書籍と8つの関係を対象とした新規ベンチマークデータセットを構築し、提案手法の有効性を示した。"