Umfassende 3D-Darstellung durch kontrastives Lernen von Sprache, Bild und 3D
Durch die Kombination von Merkmalen aus Mehrfachansichten von Bildern und 3D-Punktwolken wird eine umfassende 3D-Objektdarstellung geschaffen, die effektiv mit Textmerkmalen ausgerichtet wird, um die Leistung bei der 3D-Objekterkennung zu verbessern.