Core Concepts
Unser Rahmenwerk ermöglicht eine explizite Kontrolle über rassenspezifische Gesichtsmerkmale wie Hautfarbe, Haarfarbe, Nasen-, Augen- und Mundform in einem disentangliertem Latenzraum, ohne auf synthetische 3D-Daten angewiesen zu sein.
Abstract
Unser Ansatz zielt darauf ab, die Vielfalt menschlicher Gesichter in einem disentangliertem Latenzraum darzustellen und explizit zu kontrollieren. Im Gegensatz zu früheren Arbeiten, die 3D-Daten und -Parameter verwendeten, nutzen wir ausschließlich 2D-Bilddaten und einfache 2D-Metrikparameter, um rassenspezifische Gesichtsmerkmale wie Hautfarbe, Haarfarbe sowie Formen von Nase, Augen und Mund zu erfassen und in den Latenzraum zu integrieren.
Unser Rahmenwerk besteht aus zwei Encodern, EF und EC, die Bilder in einen gemeinsamen disentangliertem Latenzraum abbilden. EF kodiert unüberwachte Bilder aus dem FFHQ-Datensatz, während EC überwachte Bilder aus dem von uns eingeführten CelebA-HQ-Clean-Augmented-Datensatz kodiert. Dieser Datensatz enthält 26.513 hochwertige, manuell bereinigte Bilder mit einer vielfältigeren Verteilung als die Originaldaten.
Wir zeigen, dass unser Ansatz sowohl eine höhere Bildqualität als auch eine bessere Kontrolle über rassenspezifische Gesichtsmerkmale im Vergleich zu früheren Arbeiten erreicht. Insbesondere können wir die Hautfarbe und Haarfarbe präzise steuern, während die Kontrolle über Formen von Nase, Augen und Mund noch Herausforderungen aufweist. Zukünftige Arbeiten werden sich darauf konzentrieren, diese Einschränkungen durch verbesserte Merkmalsrepräsentationen zu überwinden.
Stats
Die Melanin-, Grauton- und Rotanteile der Haut- und Haarfarbe werden durch Mittelwerte der entsprechenden Farbkanäle in HSV- und YCrCb-Farbräumen quantifiziert.
Die Formen von Augen, Nase und Mund werden durch 125- bzw. 128-dimensionale Merkmalsvektoren aus vortrainierten MobileNetV2-Modellen repräsentiert.
Quotes
"Unser Rahmenwerk ermöglicht eine explizite Kontrolle über rassenspezifische Gesichtsmerkmale wie Hautfarbe, Haarfarbe, Nasen-, Augen- und Mundform in einem disentangliertem Latenzraum, ohne auf synthetische 3D-Daten angewiesen zu sein."
"Wir zeigen, dass unser Ansatz sowohl eine höhere Bildqualität als auch eine bessere Kontrolle über rassenspezifische Gesichtsmerkmale im Vergleich zu früheren Arbeiten erreicht."