Effiziente und leistungsstarke CLIP-Modelle für mobile Geräte durch Multi-Modale Reinforced Training
Wir stellen MobileCLIP vor - eine neue Familie effizienter Bild-Text-Modelle, die für Laufzeitleistung optimiert sind. Unser neuartiger und effizienter Trainingsansatz, das Multi-Modale Reinforced Training, nutzt Wissenstransfer von einem Bildunterschriftsmodell und einem Ensemble starker CLIP-Encoder, um die Genauigkeit effizienter Modelle zu verbessern.