Die Studie präsentiert einen domänenübergreifenden Rahmen für die Generierung von Bildern mit vielen Bezügen, der in der Lage ist, miteinander verbundene Bildserien aus einer gegebenen Menge von Bildern zu produzieren. Dafür wird ein neuartiger großer Datensatz namens MIS eingeführt, der 12 Millionen synthetische Mehrbildproben mit jeweils 25 miteinander verbundenen Bildern enthält.
Basierend auf diesem Datensatz wird das Many-to-many Diffusion (M2M) Modell entwickelt, das Bilder in einer autoregressiven Art und Weise generieren kann. M2M lernt, den Stil und den Inhalt aus vorherigen Bildern zu erfassen und darauf aufbauend neue, konsistente Bilder zu erzeugen. Das Modell zeigt eine beeindruckende Übertragbarkeit auf echte Bilder, obwohl es nur auf synthetischen Daten trainiert wurde. Darüber hinaus demonstriert es durch aufgabenspezifisches Finetuning seine Anpassungsfähigkeit an verschiedene Mehrbildgenerierungsaufgaben wie Neuartige Ansichtsynthese und Visuelle Prozedurgenerierung.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문