Bessere Interpretierbarkeit und Leistung für selbstüberwachte Point-Cloud-Transformatoren
In dieser Arbeit untersuchen wir die Eigenschaften von Transformatoren, die durch Selbstüberwachung erlangt werden, im Bereich der Punkt-Wolken. Insbesondere bewerten wir die Effektivität von Masked Autoencoding als Vortrainingsschema und erforschen Momentum Contrast als Alternative. Wir untersuchen den Einfluss der Datenmenge auf die erlernten Merkmale und decken Ähnlichkeiten im Verhalten des Transformators über Domänen hinweg auf. Durch umfassende Visualisierungen beobachten wir, dass der Transformer lernt, semantisch bedeutsame Regionen zu beachten, was darauf hindeutet, dass das Vortraining zu einem besseren Verständnis der zugrunde liegenden Geometrie führt. Darüber hinaus untersuchen wir den Feinabstimmungsprozess und seine Auswirkungen auf die erlernten Darstellungen. Basierend darauf entwickeln wir eine Strategie zum Aufheben des Einfrierens, die unsere Ausgangswerte konsistent übertrifft, ohne andere Änderungen am Modell oder der Trainingspipeline einzuführen, und erreichen unter Transformatormodellen Spitzenergebnisse in der Klassifizierungsaufgabe.