Der Artikel befasst sich mit der Entwicklung eines neuartigen strukturgeleiteten Diffusionsmodells für die Bildergänzung, genannt StrDiffusion. Die Kernidee ist, die semantische Diskrepanz zwischen maskierten und nicht-maskierten Regionen während des Entrauschungsprozesses durch die Anleitung der Struktur zu bewältigen.
Zunächst wird gezeigt, dass die semantisch spärliche Struktur in den frühen Stadien des Entrauschungsprozesses hilfreich ist, um die Diskrepanz zu verringern, während die dichte Textur in den späteren Stadien sinnvolle Semantik erzeugt. Die Semantik der nicht-maskierten Regionen bietet eine zeitabhängige Strukturanleitung für den Texturentrauschungsprozess, von der die zeitabhängige Spärlichkeit der Struktursemantik profitiert.
Für den Entrauschungsprozess wird ein strukturgeleitetes neuronales Netzwerk trainiert, um das vereinfachte Entrauschungsziel durch Ausnutzung der Konsistenz der entverrauschten Struktur zwischen maskierten und nicht-maskierten Regionen zu schätzen. Darüber hinaus wird eine adaptive Neuabtastungsstrategie entwickelt, um die semantische Korrelation zwischen Struktur und Textur zu regulieren.
Umfangreiche Experimente auf typischen Datensätzen bestätigen die Vorzüge von StrDiffusion gegenüber dem Stand der Technik.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問