Core Concepts
소셜 미디어 데이터에서 텍스트, 이미지, 비디오 등 다양한 모달리티 간의 관계를 학습하고 이를 활용하여 소셜 미디어 데이터의 이해와 분석을 향상시킬 수 있다.
Abstract
이 논문은 소셜 미디어 데이터에서 텍스트, 이미지, 비디오 등 다양한 모달리티 간의 관계를 학습하는 방법을 제안한다.
N-모달 대조 손실 함수를 제안하여 2개 이상의 모달리티를 처리할 수 있는 모델을 학습할 수 있다.
텔레그램 데이터셋을 수집하여 텍스트, 이미지, 비디오로 구성된 트리모달 데이터셋을 구축하였다.
트리모달 CLIP 모델을 학습하고 이를 활용하여 소셜 미디어 데이터의 입장 분류와 계정 출처 분류 작업에 적용하였다.
나아가 4개 모달리티(텍스트, 이미지, 비디오, 오디오)로 확장된 쿼드모달 CLIP 모델을 제안하였다.
Stats
소셜 미디어 데이터셋에는 총 69,831개의 비디오-텍스트 쌍이 포함되어 있다.
트리모달 데이터셋은 이 비디오-텍스트 쌍에서 각 비디오의 프레임을 이미지로 간주하여 구축하였다.
Quotes
"소셜 미디어 데이터의 다중 모달 이해는 OSINT 작업에 매우 중요하다."
"CLIP 모델은 소셜 미디어 데이터에 적용할 때 성능이 저하되므로 새로운 모델이 필요하다."