แนวคิดหลัก
提出了一个新的越南多模态数据集ViMACSA,并提出了一个名为FCMF的细粒度跨模态融合框架,有效地学习了文本和视觉元素之间的内部和跨模态交互,并将这些信息融合以产生统一的多模态表示。
บทคัดย่อ
本文介绍了一个新的越南多模态数据集ViMACSA,该数据集包含4,876个文本-图像对,并具有14,618个细粒度的文本和图像注释。此外,作者提出了一个名为FCMF的细粒度跨模态融合框架,该框架有效地学习了文本和视觉元素之间的内部和跨模态交互,并将这些信息融合以产生统一的多模态表示。实验结果表明,该框架在ViMACSA数据集上优于最先进的模型,达到了79.73%的最高F1分数。作者还探讨了越南多模态情感分析的特点和挑战,包括拼写错误、缩写和越南语的复杂性。这项工作贡献了一个基准数据集和一个新的框架,利用细粒度的多模态信息来提高多模态方面类别情感分析的性能。
สถิติ
该数据集包含4,876个文本-图像对,平均每篇文章有3.01个方面。
该数据集中有6,421个正面情感标签,1,402个中性情感标签,830个负面情感标签。
该数据集包含5,428张图像和8,656个感兴趣区域(RoI)。