Core Concepts
Trajektorienregularisierung verbessert die Leistung des selbstüberwachten geometrischen Darstellungslernens ohne die semantische Klassifizierungsgenauigkeit zu beeinträchtigen.
Abstract
Der Artikel untersucht die Anwendung von selbstüberwachtem Lernen (SSL) auf geometrische Aufgaben, da die Wirksamkeit von SSL für geometrische Darstellungslernen bisher relativ unerforschte geblieben ist. Dafür wird ein neuer Benchmark eingeführt, der die Leistung von SSL sowohl für semantische als auch für geometrische Aufgaben evaluiert.
Der Benchmark umfasst zwei Hauptkomponenten:
Semantische Klassifizierung und Posenschätzung als Downstream-Aufgaben, ohne dass Semantik- oder Posenlabels während des Trainings verwendet werden dürfen.
Evaluierung sowohl auf Daten aus dem gleichen Bereich (in-domain) als auch auf Daten aus anderen Bereichen (out-of-domain), um die Generalisierungsfähigkeit zu testen.
Basierend auf diesem Benchmark werden zwei Methoden vorgestellt, um die Leistung des SSL-geometrischen Darstellungslernens zu verbessern:
Nutzung von Darstellungen aus mittleren Netzwerkschichten anstelle der Endschicht, was zu einer Leistungssteigerung von 10-20% bei der Posenschätzung führt.
Einführung einer unüberwachten Trajektorienregularisierung, die eine glatte Trajektorie der Darstellungen ähnlicher Posen im Darstellungsraum erzwingt. Dies führt zu einer zusätzlichen Leistungssteigerung von 4% bei der Posenschätzung, ohne die semantische Klassifizierungsgenauigkeit zu beeinträchtigen.
Die Experimente zeigen, dass die vorgeschlagenen Methoden die Leistung des SSL-geometrischen Darstellungslernens deutlich verbessern können, ohne die semantische Repräsentationsqualität zu beeinträchtigen. Außerdem erreichen die SSL-Methoden mit Trajektorienregularisierung teilweise sogar bessere Ergebnisse als überwachte Methoden auf out-of-domain-Daten.
Stats
Die Darstellungen aus mittleren Netzwerkschichten wie "conv3" führen zu einer 9-20% höheren Genauigkeit bei der Posenschätzung im Vergleich zu Darstellungen aus der Endschicht.
Die Trajektorienregularisierung führt zu einer zusätzlichen Steigerung der Posenschätzgenauigkeit um 4%.
Quotes
"Trajektorienregularisierung verbessert die Leistung des selbstüberwachten geometrischen Darstellungslernens ohne die semantische Klassifizierungsgenauigkeit zu beeinträchtigen."
"Nutzung von Darstellungen aus mittleren Netzwerkschichten anstelle der Endschicht führt zu einer Leistungssteigerung von 10-20% bei der Posenschätzung."