Core Concepts
拡散モデルを使うことで、テキストと画像の不整合性を特定し、その不整合な部分を特定することができる。
Abstract
本研究では、テキストと画像の不整合性を検出し、その不整合な部分を特定するための新しい手法「D-TIIL」を提案している。従来の分類ベースの手法では、不整合性の判断は行えるものの、その根拠を説明することが難しかった。一方、人間による評価は詳細な分析が可能だが、大規模な分析には適していない。
D-TIIL では、大規模なデータセットで学習された拡散モデルを活用することで、テキストと画像の意味的な関係を理解し、不整合な部分を特定することができる。具体的には以下の4つのステップで行う:
入力画像に合わせてテキストの意味表現を調整する
調整したテキストの意味に合わせて画像を編集する
編集された画像に合わせてテキストの意味表現をさらに調整する
調整されたテキストと画像の差異から、不整合な部分を特定する
また、従来のデータセットでは不整合性の判断が曖昧だったため、新たに「TIIL」データセットを構築した。TIIL では、人手による注釈と拡散モデルを使った画像編集により、より精度の高い不整合性のアノテーションが行われている。
実験の結果、D-TIIL は従来手法と比べて、不整合性の検出と局在化の両面で優れた性能を示した。拡散モデルを活用することで、テキストと画像の意味的な関係を深く理解し、より説明可能な形で不整合性を特定できることが確認された。
Stats
"school bus"
"A school bus on the New Jersey Turnpike collided with a tractor-trailer Wednesday"
"The 1992 ad featuring the supermodel drinking an orange juice in front of two pubescent boys proved that sex appeal sells products."
Quotes
"Existing classification-based methods for text-image inconsistency can identify contextual inconsistencies but fail to provide explainable justifications for their decisions that humans can understand."
"Text-to-image diffusion models trained on large-scale datasets, such as DALL-E2, Stable Diffusion, Glide, and GLIGEN, can generate realistic images with consistent semantic content in the text prompts."
"Differently, TIIL constructs inconsistent pairs by changing words in the text, and/or editing regions in the image (e.g., changing objects, attributes, or scene-texts)."