Core Concepts
Wir präsentieren eine neuartige Anwendung evolutionärer Algorithmen, um die Erstellung leistungsfähiger Grundlagenmodelle zu automatisieren. Unser Ansatz nutzt die kollektive Intelligenz bestehender Open-Source-Modelle, um neue Modelle mit benutzerdefinierten Fähigkeiten zu entwickeln, ohne umfangreiche zusätzliche Trainingsdaten oder Rechenleistung zu benötigen.
Abstract
In dieser Arbeit stellen wir einen neuartigen Ansatz zur Anwendung evolutionärer Algorithmen auf das Modell-Merging vor. Unser Ziel ist es, die Erstellung leistungsfähiger Grundlagenmodelle zu automatisieren.
Zunächst analysieren wir den Modell-Merging-Prozess in zwei orthogonale Konfigurationsräume: den Parameterraum (Gewichte) und den Datenflussraum (Inferenzpfad). Wir entwickeln dann ein integriertes Framework, das beide Dimensionen nahtlos kombiniert.
In unseren Experimenten wenden wir diesen Ansatz an, um ein japanisches Sprachmodell mit Mathematik-Fähigkeiten und ein japanisches Vision-Sprache-Modell (VLM) zu entwickeln. Unsere fusionierten Modelle übertreffen die Leistung der Ausgangsmodelle deutlich und erreichen sogar den Stand der Technik auf verschiedenen Benchmarks, ohne explizit dafür optimiert worden zu sein.
Unser Ansatz trägt auf mehrere Arten zur Forschung bei:
- Automatisierte Modellkomposition: Wir stellen eine allgemeine evolutionäre Methode vor, um optimale Kombinationen verschiedener Open-Source-Modelle zu entdecken, um neue Grundlagenmodelle mit benutzerdefinierten Fähigkeiten zu erstellen.
- Domänenübergreifendes Merging: Wir zeigen, dass unser Verfahren neuartige Möglichkeiten zum Merging von Modellen aus unterschiedlichen Domänen (z.B. Nicht-Englisch und Mathematik, Nicht-Englisch und Vision) entdecken kann.
- State-of-the-Art-Leistung: Unsere automatisch generierten Modelle erreichen den Stand der Technik auf verschiedenen Benchmarks, ohne explizit dafür optimiert worden zu sein.
- Hohe Effizienz und überraschende Verallgemeinerungsfähigkeit: Unser 7B-Parameter-Modell übertrifft die Leistung einiger vorheriger 70B-Parameter-Modelle, was die hohe Effizienz und überraschende Verallgemeinerungsfähigkeit unseres Ansatzes unterstreicht.
- Kulturell bewusstes VLM: Unser generiertes japanisches VLM erzielt Spitzenergebnisse bei Tests auf einem inländischen Datensatz japanischer Bild-Beschreibungs-Paare und zeigt seine Fähigkeit, japanische kulturspezifische Inhalte zu verarbeiten.
Stats
Unser 7B-Parameter-Modell übertrifft die Leistung einiger vorheriger 70B-Parameter-Modelle auf japanischen Sprachbenchmarks.
Unser japanisches VLM erzielt Spitzenergebnisse auf einem inländischen Datensatz japanischer Bild-Beschreibungs-Paare.
Quotes
"Unser Ansatz nutzt die kollektive Intelligenz bestehender Open-Source-Modelle, um neue Modelle mit benutzerdefinierten Fähigkeiten zu entwickeln, ohne umfangreiche zusätzliche Trainingsdaten oder Rechenleistung zu benötigen."
"Unsere automatisch generierten Modelle erreichen den Stand der Technik auf verschiedenen Benchmarks, ohne explizit dafür optimiert worden zu sein."