Der Artikel befasst sich mit der Entwicklung eines neuartigen strukturgeleiteten Diffusionsmodells für die Bildergänzung, genannt StrDiffusion. Die Kernidee ist, die semantische Diskrepanz zwischen maskierten und nicht-maskierten Regionen während des Entrauschungsprozesses durch die Anleitung der Struktur zu bewältigen.
Zunächst wird gezeigt, dass die semantisch spärliche Struktur in den frühen Stadien des Entrauschungsprozesses hilfreich ist, um die Diskrepanz zu verringern, während die dichte Textur in den späteren Stadien sinnvolle Semantik erzeugt. Die Semantik der nicht-maskierten Regionen bietet eine zeitabhängige Strukturanleitung für den Texturentrauschungsprozess, von der die zeitabhängige Spärlichkeit der Struktursemantik profitiert.
Für den Entrauschungsprozess wird ein strukturgeleitetes neuronales Netzwerk trainiert, um das vereinfachte Entrauschungsziel durch Ausnutzung der Konsistenz der entverrauschten Struktur zwischen maskierten und nicht-maskierten Regionen zu schätzen. Darüber hinaus wird eine adaptive Neuabtastungsstrategie entwickelt, um die semantische Korrelation zwischen Struktur und Textur zu regulieren.
Umfangreiche Experimente auf typischen Datensätzen bestätigen die Vorzüge von StrDiffusion gegenüber dem Stand der Technik.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Haipeng Liu,... о arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19898.pdfГлибші Запити