Multimodale Übersetzungsmodelle sollten anhand von visuellen Informationen und der Fähigkeit, komplexe Sätze zu übersetzen, bewertet werden.