Der Artikel stellt LaVi-Bridge vor, ein Framework zur effizienten Integration verschiedener Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung.
LaVi-Bridge ist in der Lage, Encoder-only, Encoder-Decoder und Decoder-only Sprachmodelle sowie U-Net-basierte und Transformer-basierte generative Visionsmodelle miteinander zu verbinden. Dafür nutzt es LoRA und Adapter, ohne die Originalgewichte der Modelle ändern zu müssen. Dadurch ist LaVi-Bridge sehr flexibel und erfordert nur relativ geringe Rechenressourcen im Vergleich zum Training eines gesamten Diffusionsmodells.
Die Autoren evaluieren LaVi-Bridge umfassend. Sie zeigen, dass der Einsatz überlegener Sprachmodelle oder generativer Visionsmodelle die Leistung in der jeweiligen Modalität verbessert, z.B. durch besseres semantisches Verständnis mit fortschrittlichen Sprachmodellen oder höhere Bildqualität mit leistungsfähigeren generativen Visionsmodellen. Insbesondere das Diffusionsmodell mit Llama-2 zeigt hervorragendes semantisches Verständnis, während das Modell mit dem Transformer aus PixArt ästhetisch ansprechendere Bilder generiert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shihao Zhao,... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07860.pdfDomande più approfondite