Simultanes Generieren zweisprachiger Bildunterschriften durch eingebettete heterogene Aufmerksamkeitstransformer
Das vorgeschlagene Embedded Heterogeneous Attention Transformer (EHAT)-Modell nutzt heterogene Aufmerksamkeitsmechanismen, um die lokale Übereinstimmung zwischen Bildbereichen und Wörtern in verschiedenen Sprachen zu erfassen und gleichzeitig zweisprachige Bildunterschriften zu generieren.