本論文では、大規模言語モデル(LLM)を使った情報抽出(IE)の質を客観的に評価する新しい手法を提案する。
まず、LLMを使ったIEには以下のような課題がある:
これらの課題に対処するため、以下の手法を提案する:
MINEAでは、文書に人工的に生成した情報(ニードル)を埋め込み、それがどの程度抽出できたかを測る。ニードルの生成にもLLMを活用し、文書の内容に合わせて適切なものを作成する。
提案手法を実際のビジネス文書に適用した結果、スキーマに定義された各エンティティタイプについて、平均して78%の抽出精度が得られた。人手で作成したラベル付きデータがない場合でも、この手法により情報抽出の質を客観的に評価できることが示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Fili... kl. arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.04068.pdfDybere Forespørgsler