이 연구는 문맥 외 이미지-텍스트 탐지(OOCD)를 위한 새로운 접근법을 제안한다. OOCD는 이미지와 텍스트가 원래 맥락에서 벗어나 있을 때 이를 탐지하는 문제이다. 기존 방법들은 데이터 부족, 설명력 부족, 확장성 문제 등을 겪고 있다.
이 연구에서는 합성 데이터 생성을 통해 OOCD 모델의 성능을 향상시키는 방법을 제안한다. 먼저 원본 이미지와 캡션 쌍을 이용하여 이미지 캡셔닝 모델과 텍스트-이미지 생성 모델로 합성 데이터를 생성한다. 이렇게 생성된 데이터와 원본 데이터를 활용하여 CLIP, Sentence-BERT, Vision Transformer 등의 특징을 추출하고 이를 기반으로 OOCD 모델을 학습한다.
실험 결과, 제안 방법은 기존 연구 대비 높은 탐지 정확도(68%)를 달성했다. 이는 합성 데이터 활용이 OOCD 문제 해결에 효과적임을 보여준다. 또한 생성된 데이터셋과 탐지기는 향후 관련 연구에 유용한 자원이 될 것으로 기대된다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы