The authors propose an Entity-Aware Multimodal Alignment Framework to improve news image captioning by addressing challenges with entity recognition in MLLMs.
Verbesserung der Entitätenerkennung in Nachrichtenbildunterschriften durch ein multimodales Ausrichtungsframework.