Der Artikel beschreibt einen Ansatz zur Verbesserung der Leistung von Modellen für domänenübergreifende Bildsuche, wenn keine Beispiele aus den gleichen Kategorien in beiden Domänen vorhanden sind.
Der Kern des Ansatzes ist die Verwendung von synthetischen Daten, die durch domänenübergreifende Bildübersetzung generiert werden. Dabei wird ein Bild aus einer Domäne so übersetzt, dass es den Stil der anderen Domäne annimmt, aber den Bildinhalt beibehält. Diese übersetzten Bilder dienen dann als Ersatz für fehlende Beispiele aus den gleichen Kategorien in der anderen Domäne.
Für die Generierung der synthetischen Daten werden verschiedene Methoden verglichen, darunter speziell trainierte Bildübersetzungsmodelle sowie Ansätze, die auf großen vortrainierten Text-zu-Bild-Diffusionsmodellen basieren. Es zeigt sich, dass letztere, insbesondere der ELITE-Ansatz, die besten synthetischen Daten erzeugen können.
Beim Training des domänenübergreifenden Bildsuche-Modells wird dann zusätzlich zu den Standardverfahren eine Verlustfunktion verwendet, die die Ähnlichkeit zwischen einem realen Bild und seinem synthetischen Gegenstück in der anderen Domäne ausnutzt. Dieser Ansatz, den die Autoren als SynCDR bezeichnen, führt zu deutlichen Leistungsverbesserungen gegenüber Baseline-Methoden, die keine synthetischen Daten verwenden.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Samarth Mish... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2401.00420.pdfDypere Spørsmål