本研究は、テキストと画像の不整合を検出し、その根拠となる証拠を提示することで、偽情報を解釈可能に検出するモデルを提案している。
まず、テキストからAMRグラフを生成し、そこから5種類の基本的な事実ステートメントを抽出する。次に、これらのステートメントと画像を大規模な多モーダルモデルに入力し、ステートメントが画像によって支持されるかどうかを判断する。最後に、ステートメントの重要度を評価するランカーを用いて、最終的な判断と、その判断を支持する証拠を出力する。
実験の結果、提案モデルは既存手法と比べて高い検出精度を示すとともに、解釈可能な証拠を提示できることが確認された。これにより、偽情報の検出と根拠の提示が同時に実現でき、事実確認サイトなどでの活用が期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問