이 연구는 온라인 커뮤니티에서 유해 행동을 효과적으로 탐지하기 위한 다중 모달 시스템을 제안한다.
첫째, CLIP-ViT 모델을 사용하여 트윗과 이미지를 임베딩으로 변환하여 텍스트와 이미지의 의미적 연관성과 미묘한 맥락적 단서를 포착한다.
둘째, 이렇게 생성된 임베딩을 SVM이나 로지스틱 회귀와 같은 전통적인 기계 학습 알고리즘에 입력하여 유해 트윗과 이미지를 분류한다. 이 접근법은 학습과 추론 비용이 매우 낮아 실제 배포에 적합하다.
실험 결과, 이 시스템은 유해 트윗 탐지에서 99% 이상의 정확도와 재현율을 달성했다. 또한 텍스트 기반 학습만으로도 유해 이미지를 제로 샷 학습할 수 있어, 추가적인 이미지 데이터 없이도 새로운 유해 이미지를 탐지할 수 있다.
이 연구는 온라인 커뮤니티의 유해 콘텐츠 문제를 해결하기 위한 효과적이고 비용 효율적인 솔루션을 제시한다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Albert Lu,St... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16151.pdfDypere Spørsmål