Core Concepts
本研究では、テキストと画像の矛盾を検出し、その根拠となる証拠を提示することで、偽情報を解釈可能に検出するモデルを提案する。
Abstract
本研究は、テキストと画像の不整合を検出し、その根拠となる証拠を提示することで、偽情報を解釈可能に検出するモデルを提案している。
まず、テキストからAMRグラフを生成し、そこから5種類の基本的な事実ステートメントを抽出する。次に、これらのステートメントと画像を大規模な多モーダルモデルに入力し、ステートメントが画像によって支持されるかどうかを判断する。最後に、ステートメントの重要度を評価するランカーを用いて、最終的な判断と、その判断を支持する証拠を出力する。
実験の結果、提案モデルは既存手法と比べて高い検出精度を示すとともに、解釈可能な証拠を提示できることが確認された。これにより、偽情報の検出と根拠の提示が同時に実現でき、事実確認サイトなどでの活用が期待される。
Stats
偽情報の場合、画像が Independence Dayの場面ではなく冬の場面である
偽情報の場合、画像の車のナンバープレートが中国の黄色ではなく青色である
Quotes
"最近の偽情報は、生成された画像やテキストではなく、文脈の外れた多メディアコンテンツ(例えば、キャプションと画像の不整合)を使って大衆を欺くようになっている。"
"このような新しい種類の偽情報は、検出と説明の両方を困難にしている。なぜなら、個々のモダリティはそれぞれ真実に近いからである。"