Die Einführung von optischem Fluss in das Aufmerksamkeitsmodul verbessert die visuelle Konsistenz beim Text-zu-Video-Bearbeiten.