Automatische Erstellung von kontextbezogenen Audiobeschreibungen durch Verknüpfung multimodaler Sequenzen
Das Ziel ist es, eine Methode zur automatischen Erstellung von Audiobeschreibungen (AD) zu entwickeln, die visuelle Elemente, Textinformationen und Kontextinformationen nutzt, um kohärente und präzise Beschreibungen zu generieren.