Sprache als visuelle Darstellung für die Navigation
Wir erforschen den Einsatz von Sprache als Wahrnehmungsdarstellung für die Vision-und-Sprache-Navigation (VLN), mit einem Schwerpunkt auf Situationen mit wenigen Daten. Unser Ansatz verwendet Standardvisionssysteme für Bildbeschriftung und Objekterkennung, um die egozentrische panoramische Sicht des Agenten in natürlichsprachliche Beschreibungen umzuwandeln. Wir feintunen dann ein vortrainiertes Sprachmodell, um eine Aktion auszuwählen, die die Navigationsinstruktionen am besten erfüllt.