Verbesserung der audiovisuellen Spracherkennung durch Korrelation von Lippen-Teilworten basierend auf visuellem Vor-Training und Cross-Modal Fusion Encoder
Zwei neuartige Techniken zur Verbesserung der audiovisuellen Spracherkennung werden vorgeschlagen: Korrelation von Lippenformen mit Teilworten und ein audiogeführter Cross-Modal Fusion Encoder.