Der Schlüssel zum Erhalt hochqualitativer und texturreicher Ergebnisse bei selbstüberwachten Denoise-Aufgaben in Echtzeit-Szenarien ist das Training bei der ursprünglichen Eingabeauflösung und der Einsatz asymmetrischer Operationen während des Trainings und der Inferenz.
Ein Transformer-basiertes Blind-Spot-Netzwerk (TBSN) wird vorgestellt, das räumliche und kanalbasierte Selbstaufmerksamkeitsmechanismen nutzt, um die Leistung des selbstüberwachten Bilddenoisings zu verbessern.
Durch Lösen der logarithmischen Dichte-Fokker-Planck-Gleichung numerisch und Einbettung der berechneten Punktbewertung in das Bild kann die Trainingseffizienz von punktbasierten Diffusionsmodellen deutlich verbessert werden.
Wir präsentieren einen Denoiser, der auf einem pixelbasierten Diffusionsmodell basiert. Da unser Verfahren eine starke Vorstellung davon hat, wie ein echtes Bild aussieht, kann es besser auf Bilder außerhalb der Trainingsverteilung verallgemeinern.