Dual-Level Alignment durch kontrastives Lernen für die Navigation mit Vision und Sprache
Das DELAN-Framework nutzt kontrastives Lernen, um die Ausrichtung zwischen verschiedenen Modalitäten wie Anweisungen, Beobachtungen und Navigationsverlauf vor der Fusionsphase zu verbessern, um die Interaktion zwischen den Modalitäten und die Entscheidungsfindung bei der Navigation zu verstärken.