이 연구는 소셜 미디어 게시물에서 저자의 의도를 파악하기 위해 다중 모달 접근법을 제안한다. 저자는 "Uddessho" 데이터셋을 구축했는데, 이는 벵골어 소셜 미디어 게시물 3,048개로 구성되어 있다. 이 데이터셋은 정보 제공, 옹호, 홍보, 전시, 표현, 논란의 6가지 의도 범주로 분류되어 있다.
연구에서는 텍스트 기반 단일 모달 접근법과 텍스트와 이미지를 결합한 다중 모달 접근법을 비교했다. 단일 모달 접근법에서는 XLM-RoBERTa 모델이 가장 높은 64.53%의 정확도를 달성했다. 반면 다중 모달 접근법에서는 ResNet50과 XLM-RoBERTa의 조합이 76.19%의 정확도로 가장 우수한 성능을 보였다. 이는 단일 모달 접근법보다 11.66% 향상된 결과이다.
연구팀은 오류 분석을 통해 텍스트와 이미지의 복잡한 상호작용으로 인한 분류의 어려움을 발견했다. 향후 연구에서는 더 정교한 다중 모달 융합 기법과 도메인 특화 분류 체계를 개발하여 정확도를 높이고자 한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Fatema Tuj J... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09504.pdfYêu cầu sâu hơn