Die Studie präsentiert DetDiffusion, ein Framework, das die Synergie zwischen generativen und perzeptiven Modellen erforscht. DetDiffusion integriert zwei Komponenten in die Layout-zu-Bild-Trainingspipeline:
Wahrnehmungsbezogener Verlust (P.A. loss): Dieser Verlust nutzt den Segmentierungskopf, um die Qualität und Kontrollierbarkeit der Bildgenerierung zu verbessern.
Wahrnehmungsbezogenes Attribut (P.A. Attr): Dieses Attribut wird aus einem vortrainierten Detektor extrahiert und in den Trainingsprozess des generativen Modells integriert, um die Leistung spezifischer Wahrnehmungsmodelle zu steigern.
Die Experimente zeigen, dass DetDiffusion einen neuen State-of-the-Art in der Layout-gesteuerten Bildgenerierung auf COCO erreicht und die Leistung von Detektoren effektiv verbessert, insbesondere für schwierige Objekte. Die Ergebnisse unterstreichen die technische Überlegenheit von DetDiffusion und markieren einen wichtigen Fortschritt in der kontrollierten Bildgenerierung.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yibo Wang,Ru... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13304.pdfYêu cầu sâu hơn