Ein performantes textbasiertes Übersetzungsmodell wird inkrementell in ein multimodales Übersetzungsmodell umgewandelt, um eine state-of-the-art Leistung zu erzielen.