Multimodaler Transformer für Comics Text-Cloze: Architektur und Leistung
Ein neuartiges Multimodal Large Language Model (Multimodal-LLM) wurde speziell für die Aufgabe des Comics Text-Cloze entwickelt und erzielt signifikante Leistungsverbesserungen.