核心概念
Strukturgeleitete Diffusionsmodelle können die semantische Diskrepanz zwischen maskierten und nicht-maskierten Regionen bei der Bildergänzung effektiv angehen und sowohl konsistente als auch sinnvolle Ergebnisse liefern.
摘要
Der Artikel befasst sich mit der Entwicklung eines neuartigen strukturgeleiteten Diffusionsmodells für die Bildergänzung, genannt StrDiffusion. Die Kernidee ist, die semantische Diskrepanz zwischen maskierten und nicht-maskierten Regionen während des Entrauschungsprozesses durch die Anleitung der Struktur zu bewältigen.
Zunächst wird gezeigt, dass die semantisch spärliche Struktur in den frühen Stadien des Entrauschungsprozesses hilfreich ist, um die Diskrepanz zu verringern, während die dichte Textur in den späteren Stadien sinnvolle Semantik erzeugt. Die Semantik der nicht-maskierten Regionen bietet eine zeitabhängige Strukturanleitung für den Texturentrauschungsprozess, von der die zeitabhängige Spärlichkeit der Struktursemantik profitiert.
Für den Entrauschungsprozess wird ein strukturgeleitetes neuronales Netzwerk trainiert, um das vereinfachte Entrauschungsziel durch Ausnutzung der Konsistenz der entverrauschten Struktur zwischen maskierten und nicht-maskierten Regionen zu schätzen. Darüber hinaus wird eine adaptive Neuabtastungsstrategie entwickelt, um die semantische Korrelation zwischen Struktur und Textur zu regulieren.
Umfangreiche Experimente auf typischen Datensätzen bestätigen die Vorzüge von StrDiffusion gegenüber dem Stand der Technik.
統計資料
Die Konsistenzkomponente für die Struktur (xt - μx) wird verwendet, um die maskierten Regionen innerhalb der entverrauschten Textur zu bilden und die semantische Konsistenz mit den nicht-maskierten Regionen beizubehalten.
Die Semantikkomponente für die Textur (y0 - μy) liefert zunehmend sinnvolle Semantik für die maskierten Regionen, je weiter der Entrauschungsprozess fortschreitet.
Die negative Ausgleichskomponente (x0 - μx) überwiegt die Semantikinformationen von (y0 - μy) in den frühen Stadien und die Konsistenzinformationen von (xt - μx) in den späten Stadien.
Die nicht-maskierte Textur μy behält die Semantik der nicht-maskierten Regionen für die entverrauschte Textur bei.
引述
"Die semantisch spärliche Struktur ermutigt die konsistente Semantik für die entverrauschten Ergebnisse in den frühen Stadien, während die dichte Textur die Semantikgenerierung in den späten Stadien durchführt."
"Die Semantik der nicht-maskierten Regionen bietet im Grunde eine zeitabhängige Strukturanleitung für den Texturentrauschungsprozess, von der die zeitabhängige Spärlichkeit der Struktursemantik profitiert."