核心概念
大規模言語モデルを使った情報抽出の質を客観的に評価する新しい手法を提案する。人手で作成したラベル付きデータがない場合でも、人工的に生成した情報(ニードル)を文書に埋め込むことで、抽出の正確性を測ることができる。
要約
本論文では、大規模言語モデル(LLM)を使った情報抽出(IE)の質を客観的に評価する新しい手法を提案する。
まず、LLMを使ったIEには以下のような課題がある:
- 入力と出力の長さ制限により、長文の情報を十分に抽出できない
- 文章の中央部分の情報を見落とす傾向がある(Lost in the middle)
これらの課題に対処するため、以下の手法を提案する:
- 文書を小さな塊に分割し、履歴を保持しながら順次抽出する
- 抽出の質を評価するための新しい指標MINEA(Multiple Infused Needle Extraction Accuracy)を導入する
MINEAでは、文書に人工的に生成した情報(ニードル)を埋め込み、それがどの程度抽出できたかを測る。ニードルの生成にもLLMを活用し、文書の内容に合わせて適切なものを作成する。
提案手法を実際のビジネス文書に適用した結果、スキーマに定義された各エンティティタイプについて、平均して78%の抽出精度が得られた。人手で作成したラベル付きデータがない場合でも、この手法により情報抽出の質を客観的に評価できることが示された。
統計
情報抽出の質を表すMINEAスコアは全体で0.780であった。
エンティティタイプ別にみると、'Legislation'が0.942、'Event'が0.915と高い一方、'OpportunityArea'が0.671、'MedicalCondition'が0.636と低かった。
引用
"大規模言語モデルを使った情報抽出の質を客観的に評価する新しい手法を提案する。人手で作成したラベル付きデータがない場合でも、人工的に生成した情報(ニードル)を文書に埋め込むことで、抽出の正確性を測ることができる。"
"MINEAでは、文書に人工的に生成した情報(ニードル)を埋め込み、それがどの程度抽出できたかを測る。ニードルの生成にもLLMを活用し、文書の内容に合わせて適切なものを作成する。"