Die Studie untersucht, wie selbstüberwachtes Lernen von Gesichtsrepräsentationen die Leistung der Gesichtserkennung verbessern kann, insbesondere in Szenarien mit wenigen Beispielen pro Identität.
Zunächst wird gezeigt, dass selbstüberwachtes Lernen mit Vision Transformers bessere Ergebnisse liefern kann als überwachtes Lernen, im Gegensatz zu früheren Beobachtungen mit ResNet-Modellen.
Dann wird ein neuartiger selbstüberwachter Lernansatz namens LAFS (Landmark-based Facial Self-supervised Learning) vorgestellt, der die Repräsentation zwischen allen Gesichtsmerkmalen und einer Teilmenge davon minimiert. Zwei landmarkenbasierte Datenaugmentationen werden eingeführt, um die Lernrepräsentation weiter zu verbessern.
Die Experimente zeigen, dass LAFS-Vortraining gefolgt von wenigen Schuss-Feinabstimmung zu state-of-the-art-Ergebnissen auf mehreren Gesichtserkennungsbenchmarks führt, insbesondere in Szenarien mit wenigen Beispielen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhonglin Sun... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08161.pdfYêu cầu sâu hơn