Die Studie untersucht, wie selbstüberwachtes Lernen von Gesichtsrepräsentationen die Leistung der Gesichtserkennung verbessern kann, insbesondere in Szenarien mit wenigen Beispielen pro Identität.
Zunächst wird gezeigt, dass selbstüberwachtes Lernen mit Vision Transformers bessere Ergebnisse liefern kann als überwachtes Lernen, im Gegensatz zu früheren Beobachtungen mit ResNet-Modellen.
Dann wird ein neuartiger selbstüberwachter Lernansatz namens LAFS (Landmark-based Facial Self-supervised Learning) vorgestellt, der die Repräsentation zwischen allen Gesichtsmerkmalen und einer Teilmenge davon minimiert. Zwei landmarkenbasierte Datenaugmentationen werden eingeführt, um die Lernrepräsentation weiter zu verbessern.
Die Experimente zeigen, dass LAFS-Vortraining gefolgt von wenigen Schuss-Feinabstimmung zu state-of-the-art-Ergebnissen auf mehreren Gesichtserkennungsbenchmarks führt, insbesondere in Szenarien mit wenigen Beispielen.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Zhonglin Sun... klo arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08161.pdfSyvällisempiä Kysymyksiä