핵심 개념
Die Gemini-Modelle sind eine leistungsfähige Familie von multimodalen Modellen, die bemerkenswerte Fähigkeiten in den Bereichen Bild-, Audio-, Video- und Textverständnis sowie Reasoning aufweisen. Die Modelle übertreffen den Stand der Technik in 30 von 32 untersuchten Benchmarks und erreichen als erstes Modell menschenexpertenähnliche Leistungen auf dem MMLU-Benchmark.
초록
Der Bericht stellt die Gemini-Modellfamilie vor, eine neue Generation hochleistungsfähiger multimodaler Modelle, die in den Bereichen Bild-, Audio-, Video- und Textverständnis sowie Reasoning herausragende Fähigkeiten zeigen.
Die Gemini-Modelle gibt es in drei Größen - Ultra, Pro und Nano - die für unterschiedliche Anwendungsfälle optimiert sind. Die Evaluation auf einer breiten Palette von Benchmarks zeigt, dass das leistungsfähigste Gemini-Ultra-Modell den Stand der Technik in 30 von 32 Benchmarks verbessert. Bemerkenswert ist, dass es als erstes Modell menschenexpertenähnliche Leistungen auf dem MMLU-Benchmark erreicht, einem prominenten Benchmark für Wissens- und Reasoning-Fähigkeiten.
Darüber hinaus zeigt Gemini Ultra beeindruckende Fähigkeiten im bereichsübergreifenden Reasoning, indem es Eingaben aus Audio, Bildern und Text nahtlos versteht und verarbeitet. Dies eröffnet vielfältige Anwendungsmöglichkeiten, z.B. im Bildungsbereich, wo das Modell Schülerlösungen zu Physikaufgaben analysieren und korrigieren kann.
Die Gemini-Modellfamilie baut auf Transformers auf und wurde für große Kontextlängen von 32.000 Tokens trainiert. Die Modelle können Eingaben aus verschiedenen Modalitäten wie Text, Bilder, Audio und Video verarbeiten und auch multimodale Ausgaben erzeugen. Die Infrastruktur und Trainingsmethoden wurden speziell für die Skalierung auf große Modelle entwickelt.
Neben den Leistungen auf akademischen Benchmarks zeigen die Gemini-Modelle auch beeindruckende Fähigkeiten in komplexen Reasoning-Systemen wie AlphaCode 2, das Wettbewerbsprogrammieraufgaben löst. Darüber hinaus bietet die Gemini-Nano-Serie sehr effiziente Modelle für den Einsatz auf Endgeräten.
통계
Gemini Ultra erreicht eine Genauigkeit von über 90% auf dem MMLU-Benchmark, einem prominenten Benchmark für Wissens- und Reasoning-Fähigkeiten. Dies übertrifft die bisherige Bestleistung von 86,4% deutlich.
Auf dem Mathematik-Benchmark GSM8K erreicht Gemini Ultra 94,4% Genauigkeit mit Chain-of-Thought-Prompting und Self-Consistency, verglichen mit dem bisherigen Bestwert von 92%.
Auf dem MATH-Benchmark für Mathematikaufgaben unterschiedlicher Schwierigkeitsgrade erreicht Gemini Ultra 53,2% Genauigkeit mit 4-Shot-Prompting, was den bisherigen Stand der Technik übertrifft.
Auf dem HumanEval-Benchmark für Python-Coding-Aufgaben erreicht Gemini Ultra 74,4% korrekt implementierte Aufgaben.
Auf dem neuen Benchmark Natural2Code für Python-Code-Generierung erreicht Gemini Ultra 74,9%.
인용구
"Gemini Ultra ist das erste Modell, das menschenexpertenähnliche Leistungen auf dem MMLU-Benchmark erreicht, mit einer Genauigkeit von über 90%."
"Auf dem MATH-Benchmark für Mathematikaufgaben unterschiedlicher Schwierigkeitsgrade erreicht Gemini Ultra 53,2% Genauigkeit mit 4-Shot-Prompting, was den bisherigen Stand der Technik übertrifft."
"Gemini Ultra erreicht neue Bestleistungen auf 30 von 32 untersuchten Benchmarks, darunter 10 von 12 gängigen Text- und Reasoning-Benchmarks, 9 von 9 Bildverständnis-Benchmarks, 6 von 6 Videoverständnis-Benchmarks und 5 von 5 Spracherkennung- und Sprachübersetzungs-Benchmarks."