Core Concepts
Large language models pose challenges in factual consistency in summarization, addressed by FENICE, a novel metric using NLI and claim extraction.
Abstract
最近のテキスト要約の進歩により、大規模言語モデル(LLM)の登場によって顕著なパフォーマンスが示されています。しかし、自動生成された要約の多くは事実と矛盾する点があり、これを解決するためにFENICEが提案されました。FENICEはNLIとクレーム抽出を使用した新しいメトリックであり、要約から抽出されたクレームとソーステキスト間のNLIベースのアラインメントを活用しています。このアプローチは従来のメトリックよりも高い解釈可能性を提供し、標準的な要約評価データセットで最先端のパフォーマンスを達成しています。
Stats
最新技術であるAGGREFACTで最高平均結果を達成。
要約評価における長文評価でも優れたパフォーマンスを示す。
FENICEgpt_claimsはAGGREFACTテストセットで最高性能を発揮。
Quotes
"Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance."
"FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary."
"Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation."