Belangrijkste concepten
従来の情報抽出タスクの評価手法には、生成言語モデルの性能を正確に評価できないという問題がある。本研究では、主観的質問修正の原理に着想を得て、SQC-Scoreという新しい評価手法を提案する。SQC-Scoreは生成言語モデルを用いてモデル出力と正解ラベルの一致度を評価し、さらにNLIモデルを用いて正解ラベルの不完全性を補完することで、より人間に近い評価を実現する。
Samenvatting
本研究は、情報抽出タスクにおける生成言語モデルの評価手法の問題点に着目し、新しい評価手法SQC-Scoreを提案している。
従来の評価手法の問題点は以下の2点:
- 評価メトリクスの不正確さ - 生成言語モデルの出力は自然言語であるため、単純な一致度では評価が難しい
- 評価ベンチマークの不完全性 - 人手アノテーションの制約から、正解ラベルが不完全になる
SQC-Scoreは以下の2つの要素から構成される:
- Matcher: 主観的質問修正のデータを用いて事前学習したLLMを使い、モデル出力と正解ラベルの一致度を評価する
- Complementer: NLIモデルを使い、正解ラベルに含まれていない正解候補を補完する
実験の結果、SQC-Scoreは人間評価者から従来手法よりも好評価を得た。また、SQC-Scoreを用いた分析から、LLMは浅い情報抽出タスクでは一定の性能を発揮するが、スキーマ定義の強い深い情報抽出タスクでは未だ課題があることが明らかになった。
Statistieken
関係抽出タスクでは、従来のF1スコアに比べてSQC-Scoreは平均30%以上高い
事象検出タスクでは、従来のF1スコアに比べてSQC-Scoreは平均20%以上高い
事象引数抽出タスクでは、従来のF1スコアに比べてSQC-Scoreは平均10%以上高い
Citaten
"従来の評価手法は生成言語モデルの性能を正確に評価できない"
"SQC-Scoreは生成言語モデルと自然言語推論モデルを組み合わせ、より人間に近い評価を実現する"
"SQC-Scoreの分析から、LLMは浅い情報抽出タスクでは一定の性能を発揮するが、深い情報抽出タスクでは未だ課題がある"