Die Studie untersucht, ob Decoder-only Transformer wie LLaMA, die ursprünglich für große Sprachmodelle (LLMs) entwickelt wurden, an das Computervision-Feld angepasst werden können.
Zunächst wird Schritt für Schritt ein Standard-ViT in Richtung LLaMA-Architektur "LLaMAfiziert". Dabei zeigt sich, dass das direkte Anwenden einer kausalen Maske auf die Selbstaufmerksamkeit zu einem Aufmerksamkeitseinbruch führt, was das Netzwerk-Training zum Scheitern bringt.
Um diese Herausforderung zu überwinden, wird eine Methode vorgeschlagen, den Klassentoken hinter die Bildtokens zu positionieren. Dadurch kann die kausale Selbstaufmerksamkeit die gesamte Bildinformation effizient erfassen. Zusätzlich wird eine "Soft Mask"-Strategie entwickelt, die die kausale Maske zu Beginn des Trainings schrittweise einführt, um das Optimierungsverhalten zu erleichtern.
Das angepasste Modell, genannt "Image LLaMA" (iLLaMA), ähnelt in seiner Architektur LLaMA und ermöglicht direktes überwachtes Lernen. Seine kausale Selbstaufmerksamkeit steigert die Recheneffizienz und ermöglicht das Erlernen komplexer Darstellungen durch Erhöhung der Aufmerksamkeitskarten-Ränge.
iLLaMA übertrifft die Leistung seiner Encoder-only-Gegenstücke, erreicht 75,1% ImageNet-Top-1-Genauigkeit mit nur 5,7 Millionen Parametern. Durch Skalierung auf ~310 Millionen Parameter und Vortraining auf ImageNet-21K wird die Genauigkeit weiter auf 86,0% gesteigert.
Umfangreiche Experimente zeigen die zuverlässigen Eigenschaften von iLLaMA: Kalibrierung, Form-Textur-Verzerrung, Quantisierungskompatibilität, ADE20K-Segmentierung und CIFAR-Transfer-Lernen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiahao Wang,... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06773.pdfDeeper Inquiries