Die Studie untersucht die Leistungsfähigkeit von überwachtem und selbstüberwachtem Vortraining für 3D-Daten im Transferlernen. Die Autoren führen einen umfassenden Vergleich verschiedener 3D-Architekuren und Vortrainingsstrategien durch, sowohl im linearen Probing als auch im Fine-Tuning-Szenario.
Ihre Analyse zeigt, dass überwachtes Vortraining in der Regel zu nützlicheren Merkmalen in den letzten Schichten führt, während selbstüberwachtes Vortraining oft bessere Ergebnisse im Fine-Tuning erzielt. Dies hängt mit der unterschiedlichen Anpassungsfähigkeit der frühen Schichten zusammen, die bei überwachtem Vortraining geringer ist.
Die Autoren beobachten, dass die Architektur einen starken Einfluss auf die Transferlernleistung hat. Einfachere Modelle, die globale Merkmale erfassen, wie PointNet, sind weniger gut für das Transferlernen geeignet als lokale Methoden wie PointMLP. Transformator-basierte Architekturen profitieren mehr vom selbstüberwachten Vortraining.
Darüber hinaus zeigt die Analyse, dass die frühen Schichten der 3D-Architekturen eine hohe diskriminative Fähigkeit aufweisen, was im Gegensatz zum 2D-Bereich steht. Um diese Eigenschaft zu nutzen und die Anpassungsfähigkeit zu verbessern, schlagen die Autoren eine einfache geometrische Regularisierung der frühen Schichten während des überwachten Vortrainings vor. Dies führt zu einer Leistungssteigerung und übertrifft teilweise sogar das selbstüberwachte Vortraining.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Souhail Hadg... ב- arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17869.pdfשאלות מעמיקות