Cobra ist ein neuartiges multimodales Großsprachmodell, das die effiziente Mamba-Sprachmodellarchitektur mit visuellen Informationen kombiniert, um eine leistungsfähige und recheneffiziente Verarbeitung zu ermöglichen.
TinyGPT-V ist ein neuartiges, quelloffenes multimodales großes Sprachmodell, das für effizientes Training und Inferenz in verschiedenen Bild-Sprache-Aufgaben wie Bildunterschriften und visuelle Fragebeantworung entwickelt wurde. Durch eine kompakte, aber leistungsfähige Architektur, die den Phi-2-Sprachmodell mit vortrainierten Bildcodierern kombiniert, benötigt TinyGPT-V deutlich weniger Rechenressourcen - nur 24 GB für das Training und bis zu 8 GB für die Inferenz - ohne Leistungseinbußen.