Core Concepts
Das Hauptproblem der unüberwachten Bildübersetzung ist, dass es viele mögliche willkürliche Zuordnungen gibt, die die Zyklusbedingungen erfüllen, da das Problem unterbestimmt ist. Die vorgeschlagenen Modelle versuchen, dieses Problem durch verschiedene Ansätze zu lösen, wie z.B. den Einsatz von Wasserstein-GANs oder variationellen Autoencodern.
Abstract
Die Studie befasst sich mit dem Problem der unüberwachten Bildübersetzung, bei dem die Darstellung eines Objekts oder einer Szene in eine andere umgewandelt oder gezwungen wird. In den letzten Jahren wurden diese Aufgaben mit überwachten Lernmethoden durchgeführt, die eine große Anzahl von gekennzeichneten Datensätzen von passenden Bildpaaren erfordern. In der Praxis ist die Verfügbarkeit solcher Datensätze sehr gering oder sogar nicht vorhanden.
Die Autoren untersuchen einige Versagensfälle eines wegweisenden Werks in diesem Bereich, CycleGAN, und vermuten, dass sie mit der Stabilität von GANs zusammenhängen. Sie schlagen zwei allgemeine Modelle vor, um diese Probleme zu lindern. Sie kommen auch zu dem Schluss, dass das Problem der unüberwachten Bildübersetzung, wenn es unterbestimmt ist, schlecht gestellt ist und viele willkürliche Zuordnungen möglich sind, die die Zyklusbedingungen erfüllen.
Das 1-GAN-Modell verwendet einen Wasserstein-GAN-Ansatz mit einer Architektur, die darauf abzielt, die Instabilität und den Modenkollaps von GANs zu reduzieren. Das GAN-freie Modell nutzt stattdessen variationelle Autoencoder, um die Quell- und Zieldomänenverteilungen zu modellieren, und erzwingt eine Zyklusbedingung, um die Übersetzung über Domänen hinweg durchzuführen.
Stats
Die Bildübersetzungsaufgabe kann als Abbildung eines Bildes aus der Quelldomäne auf ein entsprechendes Bild in der Zieldomäne betrachtet werden.
Das Problem der unüberwachten Bildübersetzung ist unterbestimmt, da es viele mögliche willkürliche Zuordnungen gibt, die die Zyklusbedingungen erfüllen.
GANs sind anfällig für Modenkollaps, bei dem der Generator sich nur auf einige Aspekte des Zieldatensatzes konzentriert und andere ignoriert.
Quotes
"GANs bestehen aus einem Generator und einem Diskriminator, die unter der Idee des adversariellen Lernens trainiert werden. Der Zweck des Generators ist es, die wahrscheinliche Verteilung der echten Stichproben aufzunehmen und dann neue Datenstichproben zu erzeugen."
"Aufgrund ihrer Traininginstabilität und hohen Tendenz zum Modenkollaps vermuten wir, dass es für ein unüberwachtes Bildübersetzungsmodell keine Notwendigkeit für zwei GAN-Teile gibt."