Der Artikel präsentiert einen neuen Ansatz für das Lernen von Repräsentationen in großem Maßstab, indem er eine fundamentale Verbindung zwischen Diffusion, Kompression und (maskierter) Vervollständigung nutzt.
Der Ansatz basiert auf der Konstruktion einer weißen-Box-Transformator-Architektur, genannt CRATE-MAE, die mathematisch vollständig interpretierbar ist. Jede Schicht der Architektur transformiert die Datenverteilung strukturiert hin zu und von einer komprimierten Darstellung.
Die Autoren zeigen, dass unter bestimmten Bedingungen Kompression gegen ein gelerntes statistisches Modell äquivalent zu Entrauschen gegen dasselbe Modell ist. Dies ermöglicht es ihnen, eine deterministische Diffusionsgleichung zu konstruieren, deren Zeitumkehr eine interpretierbare Dekoder-Architektur liefert, die zum Encoder passt.
Umfangreiche empirische Evaluierungen bestätigen die analytischen Erkenntnisse. CRATE-MAE zeigt vielversprechende Leistung auf großen Bilddatensätzen, bei gleichzeitig nur etwa 30% der Parameter im Vergleich zu einem Standard-Masked-Autoencoder. Darüber hinaus enthalten die von CRATE-MAE erlernten Repräsentationen explizite Struktur und semantische Bedeutung.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Druv Pai,Ziy... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02446.pdfDeeper Inquiries