Core Concepts
신경망 기반 주제 모델링 기법은 텍스트 데이터에서 일관성 있고 다양한 주제를 성공적으로 찾아낼 수 있지만, 이미지와 텍스트가 함께 있는 다중 양식 데이터셋을 다루는 데는 한계가 있다. 이 논문은 텍스트와 이미지를 모두 포함하는 문서에 대한 다중 양식 주제 모델링의 첫 번째 체계적이고 포괄적인 평가를 제시한다.
Abstract
이 논문은 다중 양식 주제 모델링에 대한 체계적이고 포괄적인 평가를 수행한다. 주요 내용은 다음과 같다:
두 가지 새로운 다중 양식 주제 모델링 솔루션을 제안했다. 첫째, Multimodal-ZeroShotTM은 ZeroShotTM을 확장하여 텍스트와 이미지 특징을 모두 재구성한다. 둘째, Multimodal-Contrast는 M3L-Contrast를 기반으로 하며, 대조 학습을 사용하여 텍스트와 이미지를 공유 주제 공간에 매핑한다.
주제의 일관성과 다양성을 평가하기 위한 두 가지 새로운 메트릭을 제안했다. Image Embedding-based Coherence (IEC)는 주제 내 이미지의 의미적 관련성을 측정하고, Image Embedding-based Pairwise Similarity (IEPS)는 주제 간 이미지의 다양성을 측정한다.
문서 크기, 데이터 출처, 도메인 등이 다양한 6개의 새로운 다중 양식 데이터셋을 제안했다.
제안한 모델과 기존 모델을 다양한 데이터셋과 메트릭으로 체계적으로 평가했다. 결과적으로 두 모델 모두 일관성 있고 다양한 주제를 생성하지만, 어떤 모델이 더 우수한지는 메트릭과 데이터셋 조합에 따라 다르다. 또한 사용자 평가 결과가 제안한 메트릭과 일치하여 이 메트릭의 신뢰성을 뒷받침한다.
Stats
문서당 평균 단어 수가 6개에서 2,425개까지 다양한 6개의 다중 양식 데이터셋을 사용했다.
데이터셋의 출처는 Flickr, Twitter, Wikipedia 등 다양하다.
데이터셋의 도메인은 객체 인식, 시각적 스토리텔링, 감정 분석, 혐오 콘텐츠 탐지 등 다양하다.
데이터 레이블링 방식도 군중 소싱, 자동 분류 등 다양하다.