Core Concepts
提出一种嵌入式异构注意力变换器(EHAT)模型,通过异构网络建立跨域关系和局部对应,实现同时生成英语和中文两种语言的图像字幕。
Abstract
本文提出了嵌入式异构注意力变换器(EHAT)模型,用于解决跨语言图像字幕任务中的跨语言和跨模态障碍。EHAT由三个组件组成:掩码异构交叉注意力(MHCA)、异构注意力推理网络(HARN)和异构协同注意力(HCA)。
MHCA通过掩码机制和自注意力机制,将视觉特征和语言嵌入对齐到统一的维度空间。HARN作为EHAT的核心,利用视觉边界框表示特征连接两种语言的词特征,学习异构映射,建立跨域关系。MHCA和HCA通过专门的异构注意力机制,在编码器中实现跨域集成,使单个模型能够生成两种语言的字幕。
实验结果表明,与现有的先进单语言方法相比,我们的方法在英语和中文字幕生成方面都取得了优异的性能。EHAT框架有效地解决了跨语言图像字幕的挑战,为改善多语言图像分析和理解铺平了道路。
Stats
图像中通常包含10到50个区域特征。
英语词汇表包含9487个单词,中文词汇表包含9532个单词。
字幕长度控制在20个单词以内。