Die Studie präsentiert einen domänenübergreifenden Rahmen für die Generierung von Bildern mit vielen Bezügen, der in der Lage ist, miteinander verbundene Bildserien aus einer gegebenen Menge von Bildern zu produzieren. Dafür wird ein neuartiger großer Datensatz namens MIS eingeführt, der 12 Millionen synthetische Mehrbildproben mit jeweils 25 miteinander verbundenen Bildern enthält.
Basierend auf diesem Datensatz wird das Many-to-many Diffusion (M2M) Modell entwickelt, das Bilder in einer autoregressiven Art und Weise generieren kann. M2M lernt, den Stil und den Inhalt aus vorherigen Bildern zu erfassen und darauf aufbauend neue, konsistente Bilder zu erzeugen. Das Modell zeigt eine beeindruckende Übertragbarkeit auf echte Bilder, obwohl es nur auf synthetischen Daten trainiert wurde. Darüber hinaus demonstriert es durch aufgabenspezifisches Finetuning seine Anpassungsfähigkeit an verschiedene Mehrbildgenerierungsaufgaben wie Neuartige Ansichtsynthese und Visuelle Prozedurgenerierung.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ying Shen,Yi... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03109.pdfYêu cầu sâu hơn