Der Artikel stellt einen neuen Ansatz namens MixCon3D vor, der darauf abzielt, eine ganzheitliche 3D-Objektdarstellung durch kontrastives Lernen von Sprache, Bild und 3D zu schaffen. Im Gegensatz zu bestehenden Methoden, die sich auf die einfache Zuordnung von Punktwolken zu Bild- und Textmerkmalen konzentrieren, entwickelt MixCon3D die 3D-Objektdarstellung aus komplementären Perspektiven, indem es Mehrfachansichten von Bildern zusammen mit den Punktwolken verwendet. Anschließend führt MixCon3D ein kontrastives Lernen von 3D und Text durch, um die realen 3D-Objekte umfassend darzustellen und die Textausrichtung zu verbessern.
Darüber hinaus untersucht der Artikel eingehend verschiedene Trainingsrezepte für das 3D-kontrastive Lernparadigma und erstellt eine solide Baseline mit verbesserter Leistung. Umfangreiche Experimente auf drei repräsentativen Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und den bisherigen Stand der Technik auf dem herausfordernden Objaverse-LVIS-Datensatz mit 1.156 Kategorien um 5,7% übertrifft.
Die Vielseitigkeit von MixCon3D wird in Anwendungen wie Text-zu-3D-Retrieval und Punktwolkenbeschriftung demonstriert, was seine Wirksamkeit in verschiedenen Szenarien weiter belegt.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yipeng Gao,Z... : arxiv.org 04-08-2024
https://arxiv.org/pdf/2311.01734.pdfDaha Derin Sorular