Die Studie präsentiert DetDiffusion, ein Framework, das die Synergie zwischen generativen und perzeptiven Modellen erforscht. DetDiffusion integriert zwei Komponenten in die Layout-zu-Bild-Trainingspipeline:
Wahrnehmungsbezogener Verlust (P.A. loss): Dieser Verlust nutzt den Segmentierungskopf, um die Qualität und Kontrollierbarkeit der Bildgenerierung zu verbessern.
Wahrnehmungsbezogenes Attribut (P.A. Attr): Dieses Attribut wird aus einem vortrainierten Detektor extrahiert und in den Trainingsprozess des generativen Modells integriert, um die Leistung spezifischer Wahrnehmungsmodelle zu steigern.
Die Experimente zeigen, dass DetDiffusion einen neuen State-of-the-Art in der Layout-gesteuerten Bildgenerierung auf COCO erreicht und die Leistung von Detektoren effektiv verbessert, insbesondere für schwierige Objekte. Die Ergebnisse unterstreichen die technische Überlegenheit von DetDiffusion und markieren einen wichtigen Fortschritt in der kontrollierten Bildgenerierung.
翻譯成其他語言
從原文內容
arxiv.org
深入探究