Core Concepts
확산 모델을 활용하여 텍스트-이미지 쌍의 의미적 불일치를 탐지하고 불일치 영역을 시각화하는 방법을 제안한다.
Abstract
이 연구는 온라인 상의 광범위한 허위 정보 문제에 대응하기 위해 텍스트-이미지 불일치를 탐지하는 방법을 제안한다. 기존의 분류 기반 방법은 문맥적 불일치를 식별할 수 있지만 사람이 이해할 수 있는 설명을 제공하지 못한다. 또한 사람의 평가는 규모에 맞지 않고 오류에 취약하다.
이를 해결하기 위해 본 연구는 D-TIIL(Diffusion-based Text-Image Inconsistency Localization)을 제안한다. D-TIIL은 텍스트-이미지 확산 모델을 활용하여 의미적 불일치를 국소화한다. 이 모델은 대규모 데이터셋으로 학습되어 불필요한 정보를 걸러내고 배경 지식을 활용하여 불일치를 식별한다. 또한 D-TIIL은 텍스트 임베딩과 수정된 이미지 영역을 사용하여 이러한 불일치를 시각화한다.
D-TIIL의 효과를 평가하기 위해 14,000개의 일관성 있고 일관성 없는 텍스트-이미지 쌍을 포함하는 새로운 TIIL 데이터셋을 소개한다. 기존 데이터셋과 달리 TIIL은 개별 단어와 이미지 영역 수준에서 평가할 수 있으며, 다양한 불일치를 나타내도록 설계되었다.
D-TIIL은 확장 가능하고 증거 기반의 접근 방식으로 텍스트-이미지 불일치를 식별하고 국소화하여 향후 허위 정보 대응 연구를 위한 강력한 프레임워크를 제공한다.
Stats
"A school bus on the New Jersey Turnpike collided with a tractor-trailer Wednesday"에서 "school bus"는 불일치 단어이다.
불일치 점수 r은 21.5이다.
Quotes
"이 연구는 온라인 상의 광범위한 허위 정보 문제에 대응하기 위해 텍스트-이미지 불일치를 탐지하는 방법을 제안한다."
"D-TIIL은 확장 가능하고 증거 기반의 접근 방식으로 텍스트-이미지 불일치를 식별하고 국소화하여 향후 허위 정보 대응 연구를 위한 강력한 프레임워크를 제공한다."