Die Studie untersucht, wie selbstüberwachtes Lernen von Gesichtsrepräsentationen die Leistung der Gesichtserkennung verbessern kann, insbesondere in Szenarien mit wenigen Beispielen pro Identität.
Zunächst wird gezeigt, dass selbstüberwachtes Lernen mit Vision Transformers bessere Ergebnisse liefern kann als überwachtes Lernen, im Gegensatz zu früheren Beobachtungen mit ResNet-Modellen.
Dann wird ein neuartiger selbstüberwachter Lernansatz namens LAFS (Landmark-based Facial Self-supervised Learning) vorgestellt, der die Repräsentation zwischen allen Gesichtsmerkmalen und einer Teilmenge davon minimiert. Zwei landmarkenbasierte Datenaugmentationen werden eingeführt, um die Lernrepräsentation weiter zu verbessern.
Die Experimente zeigen, dass LAFS-Vortraining gefolgt von wenigen Schuss-Feinabstimmung zu state-of-the-art-Ergebnissen auf mehreren Gesichtserkennungsbenchmarks führt, insbesondere in Szenarien mit wenigen Beispielen.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問