Core Concepts
LLMの出力の事実性を詳細に評価するための8つのサブタスクからなる包括的なフレームワークを提案し、オープンドメインの事実性ベンチマークを構築した。
Abstract
本研究では、LLMの出力の事実性を評価するための包括的なフレームワークを提案している。このフレームワークは以下の8つのサブタスクから構成される:
文の分解: LLMの出力を文脈から独立した原子的な主張に分解する。
文脈の除去: 文の主張を文脈から独立させる。
主張の重要性判定: 主張が事実的かどうか、意見か、主張ではないかを判定する。
証拠の収集と検索: 主張を裏付ける証拠を収集する。
証拠の立場判定: 証拠が主張を支持するか、部分的に支持するか、反駁するか、関連がないかを判定する。
主張の修正判定: 証拠に基づいて主張が正しいか誤りかを判定し、必要に応じて修正する。
主張の修正: 誤りのある主張を修正する。
出力の修正: 修正された主張を元の出力に統合し、不要な重複を削除する。
さらに、この8つのサブタスクを評価するためのオープンドメインの事実性ベンチマークを構築した。このベンチマークには94の(質問、回答)ペアが含まれ、各サブタスクの詳細なアノテーションが行われている。
実験の結果、現在の自動事実確認システムは特に誤りのある主張を正しく検出することが難しいことが示された。また、出力の修正を評価する際に、編集距離やセマンティックな類似性といった内部メトリクスでは人間の評価と一致しないことが明らかになった。
本研究は、LLMの出力の事実性を包括的に評価し、改善するための重要な基盤を提供している。今後は、データセットの規模拡大や、サブタスク間の依存関係の考慮、証拠の質の向上など、さらなる課題に取り組む必要がある。
Stats
94個の(質問、回答)ペアが含まれる
277個の文から構成され、そのうち277個が事実的な主張を含む
661個の事実的主張が含まれる
各主張に対して5個の証拠が収集された
Quotes
"LLMsの出力の事実性を評価し、改善するメカニズムが必要とされている。"
"現在の自動事実確認システムは、特に誤りのある主張を正しく検出することが難しい。"
"出力の修正を評価する際に、内部メトリクスでは人間の評価と一致しないことが明らかになった。"