Wir präsentieren eine Methode zum Extrahieren einer Sequenz von DDPM-Rauschkarten, die ein gegebenes Bild perfekt rekonstruieren. Diese Rauschkarten sind anders verteilt als die bei der regulären Abtastung verwendeten und sind editierfreundlicher. Unsere Methode ermöglicht vielfältige Bearbeitungen von Realbildern, ohne das Modell nachzuschulen oder seine Aufmerksamkeitskarten zu ändern, und kann auch leicht in andere Algorithmen integriert werden.
Osprey, ein neuartiger Ansatz, erweitert die Fähigkeiten von Multimodalen Großsprachen-Modellen (MLLMs) für detailliertes pixelweises Bildverstehen, indem er eine Maske-basierte visuelle Extraktionskomponente und eine umfangreiche Maske-Text-Datensatz-Sammlung nutzt.