Skalierbare Bildgenerierung durch Vorhersage der nächsten Auflösung: Visuelle Autoregressive Modellierung
Visuelle Autoregressive Modellierung (VAR) ist ein neues Generierungsparadigma, das die autoregressive Bildgenerierung als grob-zu-fein "Vorhersage der nächsten Auflösung" definiert und damit vom üblichen rasterförmigen "Vorhersage des nächsten Tokens" abweicht. Diese einfache, intuitive Methodik ermöglicht es autoregressive Transformatoren, visuelle Verteilungen schnell zu lernen und gut zu verallgemeinern.