온라인 커뮤니티에 만연한 유해 콘텐츠를 효과적으로 탐지하기 위해 텍스트와 이미지를 통합한 다중 모달 접근법을 제안한다. 이를 통해 높은 정확도와 재현율로 유해 콘텐츠를 식별할 수 있으며, 추가적인 이미지 데이터 없이도 새로운 유해 이미지를 탐지할 수 있다.