本稿は、FEVER 2024 (AVeriTeC) 共有タスクにおける Team Papelo の取り組みをまとめた研究論文である。
研究目的
ウェブ上の誤った情報と事実を区別することは、人間の検索能力と推論能力の両方に課題を突きつけてきた。本研究では、大規模言語モデル (LLM) の推論能力と現代の検索エンジンの検索能力を組み合わせることで、このプロセスを自動化し、主張を説明可能な形で検証することを目的とする。
手法
LLM と検索を複数段階の証拠追跡戦略に統合したシステムを開発した。この戦略では、まず、入力された主張に基づいて、sequence to sequence モデルを用いて最初の質問を生成する。次に、その質問に対する回答を検索して定式化し、LLM を用いて、不足している証拠を追跡するためのフォローアップ質問を反復的に生成する。
主な結果
FEVER 2024 (AVeriTeC) 共有タスクにおいて、本システムを評価した。その結果、すべての質問を一度に生成する戦略と比較して、ラベルの正解率が 0.045、AVeriTeC スコア(証拠の妥当性を評価する指標)が 0.155 向上した。また、アブレーション分析により、質問生成手法、中規模コンテキスト、一度に 1 つの文書を用いた推論、メタデータの追加、言い換え、問題の 2 クラスへの還元、最終的な判定の見直しなど、さまざまな設計上の選択の重要性を示した。開発セットでは 0.510、テストセットでは 0.477 の AVeriTeC スコアを達成した。
結論
本研究で提案された複数段階の証拠追跡フレームワークは、LLM とウェブ検索の強みを組み合わせることで、事実確認タスクにおいて高い精度を達成できることを示した。このシステムは、人間のファクトチェッカーの作業を迅速化したり、誤った情報に対する迅速な予備的な対応を提供したりするのに役立つ可能性がある。
限界と今後の研究
本システムは、「証拠不十分」や「矛盾する証拠/チェリーピッキング」などのクラスの予測精度が低いという課題が残されている。また、LLM はウェブサイトの全体的な信頼性を判断するための情報が不足しており、メタデータとしてサイト名のみが考慮されている。ウェブサイトの信頼性評価や、新規情報の事実確認など、今後の研究課題として挙げられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問