Core Concepts
新しいANLS*メトリックは、生成大規模言語モデル(GLLMs)の評価において革新的であり、従来のANLSメトリックと比較して柔軟性が向上している。
Abstract
伝統的な識別モデルとGLLMsの進化により、文書処理タスクにおける新しいメトリックであるANLS*が導入された。
ANLS*メトリックは、情報抽出や分類など幅広いタスクの評価に使用され、既存のANLSメトリックと互換性がある。
7つの異なるデータセット、6つの異なるGLLMs、3つの異なるプロンプティング方法を使用して、ANLS*メトリックを用いた評価が提供されている。
SFTという新しいドキュメント用プロンプティング手法も他の手法と比較されており、優れた結果を示している。
導入(Introduction)
ドキュメント処理はNLP内で独特かつ難解な領域であり、2D空間内で重要な位置情報をエンコードする特殊レイアウトモデルが利用されている。
LayoutLMv3などの識別モデルは文書処理タスクにおいて最先端技術を提供してきたが、追加合成や変換を必要とするタスクでは限界があった。
メトリック定義(Metric Definition)
ANLS*メトリックは文字列やリストだけでなく辞書型やそれらの組み合わせもサポートし、複雑な出力オブジェクトも評価可能。
ANLS*スコアは正解と予測値間の類似度を測定し、木構造からマッチングを行うことで計算される。
実験評価(Experimental Evaluation)
ANLS*メトリックは7つの異なるデータセットと3つの異なるGLLMsで評価され、SFTプロンプティング手法が他手法よりも優れた結果を示した。
gpt-4-turboやclaude-3は競争力があり、gemini-proやmistral-largeはこれらに劣っていた。
Stats
GLLMs: gpt-3.5-turbo-16k, gpt-4-turbo, gpt-4-vision, gemini-pro, mistral-large, claude-3