Mini-Gemini: Effiziente und leistungsstarke Multimodalitäts-Vision-Sprache-Modelle
Mini-Gemini ist ein einfacher und effektiver Rahmen, der die Multimodalität von Vision-Sprache-Modellen (VLMs) verbessert. Durch den Einsatz von hochauflösenden visuellen Token, hochwertigeren Daten und VLM-gesteuerter Generierung kann Mini-Gemini die Leistung und den Funktionsumfang aktueller VLMs deutlich steigern.