Der Artikel befasst sich mit der Entwicklung eines neuartigen strukturgeleiteten Diffusionsmodells für die Bildergänzung, genannt StrDiffusion. Die Kernidee ist, die semantische Diskrepanz zwischen maskierten und nicht-maskierten Regionen während des Entrauschungsprozesses durch die Anleitung der Struktur zu bewältigen.
Zunächst wird gezeigt, dass die semantisch spärliche Struktur in den frühen Stadien des Entrauschungsprozesses hilfreich ist, um die Diskrepanz zu verringern, während die dichte Textur in den späteren Stadien sinnvolle Semantik erzeugt. Die Semantik der nicht-maskierten Regionen bietet eine zeitabhängige Strukturanleitung für den Texturentrauschungsprozess, von der die zeitabhängige Spärlichkeit der Struktursemantik profitiert.
Für den Entrauschungsprozess wird ein strukturgeleitetes neuronales Netzwerk trainiert, um das vereinfachte Entrauschungsziel durch Ausnutzung der Konsistenz der entverrauschten Struktur zwischen maskierten und nicht-maskierten Regionen zu schätzen. Darüber hinaus wird eine adaptive Neuabtastungsstrategie entwickelt, um die semantische Korrelation zwischen Struktur und Textur zu regulieren.
Umfangreiche Experimente auf typischen Datensätzen bestätigen die Vorzüge von StrDiffusion gegenüber dem Stand der Technik.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haipeng Liu,... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19898.pdfYêu cầu sâu hơn