核心概念
大規模言語モデル(LLM)は目覚ましい進歩を遂げているものの、複雑な金融文書における請求検証において、専門家レベルの精度と説明可能性の達成には、依然として大きな課題が存在する。
要約
FinDVerベンチマークの概要
本稿では、大規模言語モデル(LLM)の、特に長く複雑な金融文書における請求検証能力を評価するために設計された、包括的なベンチマークであるFINDVERについて解説する。
情報化社会において、企業の財務状況に関する未検証の情報がオンラインメディアで拡散し、投資家を誤解させる可能性がある。そのため、企業が公開する財務諸表(決算報告書や規制当局への提出書類など)を用いて、これらの情報の真偽を検証することが重要となる。近年、LLMは幅広いタスクにおいて優れた能力を発揮しているが、実際の金融分野における文書に基づく請求検証への応用は、以下の2つの理由から依然として困難である。
金融文書の複雑性: 金融文書は一般的に長く、複雑で、専門用語や数値データが豊富に含まれている。そのため、請求に関連する情報を抽出・分析するには、高度な文書理解能力と金融分野の専門知識が必要となる。
説明責任の重要性: 金融分野では、意思決定が巨額の資金を伴うことが多いため、請求検証の根拠を明確かつ理解しやすい形で提示することが不可欠となる。しかし、既存の請求検証ベンチマークは、主に含意分類タスクに焦点を当てており、推論プロセスの評価は行われていない。
FINDVERは、上記の課題に対処するために、金融分野の専門家によって作成された、説明可能な請求検証のためのベンチマークである。FINDVERは、実際の金融文書に見られる複雑なシナリオを反映した、情報抽出、数値推論、知識集約型推論の3つのサブセットから構成されている。各事例は、詳細な裏付けとなる証拠と、段階的な推論プロセスの説明とともに注釈が付けられている。