Die Studie untersucht, wie selbstüberwachtes Lernen von Gesichtsrepräsentationen die Leistung der Gesichtserkennung verbessern kann, insbesondere in Szenarien mit wenigen Beispielen pro Identität.
Zunächst wird gezeigt, dass selbstüberwachtes Lernen mit Vision Transformers bessere Ergebnisse liefern kann als überwachtes Lernen, im Gegensatz zu früheren Beobachtungen mit ResNet-Modellen.
Dann wird ein neuartiger selbstüberwachter Lernansatz namens LAFS (Landmark-based Facial Self-supervised Learning) vorgestellt, der die Repräsentation zwischen allen Gesichtsmerkmalen und einer Teilmenge davon minimiert. Zwei landmarkenbasierte Datenaugmentationen werden eingeführt, um die Lernrepräsentation weiter zu verbessern.
Die Experimente zeigen, dass LAFS-Vortraining gefolgt von wenigen Schuss-Feinabstimmung zu state-of-the-art-Ergebnissen auf mehreren Gesichtserkennungsbenchmarks führt, insbesondere in Szenarien mit wenigen Beispielen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Zhonglin Sun... klokken arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08161.pdfDypere Spørsmål