이 연구는 소셜 미디어 게시물에서 저자의 의도를 파악하기 위해 다중 모달 접근법을 제안한다. 저자는 "Uddessho" 데이터셋을 구축했는데, 이는 벵골어 소셜 미디어 게시물 3,048개로 구성되어 있다. 이 데이터셋은 정보 제공, 옹호, 홍보, 전시, 표현, 논란의 6가지 의도 범주로 분류되어 있다.
연구에서는 텍스트 기반 단일 모달 접근법과 텍스트와 이미지를 결합한 다중 모달 접근법을 비교했다. 단일 모달 접근법에서는 XLM-RoBERTa 모델이 가장 높은 64.53%의 정확도를 달성했다. 반면 다중 모달 접근법에서는 ResNet50과 XLM-RoBERTa의 조합이 76.19%의 정확도로 가장 우수한 성능을 보였다. 이는 단일 모달 접근법보다 11.66% 향상된 결과이다.
연구팀은 오류 분석을 통해 텍스트와 이미지의 복잡한 상호작용으로 인한 분류의 어려움을 발견했다. 향후 연구에서는 더 정교한 다중 모달 융합 기법과 도메인 특화 분류 체계를 개발하여 정확도를 높이고자 한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問