Core Concepts
OpenEval ist eine umfassende Evaluierungsplattform für chinesische Großsprachmodelle, die deren Leistungsfähigkeit, Ausrichtung an menschlichen Werten und Sicherheit bewertet.
Abstract
Die Autoren stellen OpenEval vor, eine Evaluierungsplattform für chinesische Großsprachmodelle, die deren Leistungsfähigkeit, Ausrichtung und Sicherheit umfassend bewertet.
Für die Leistungsfähigkeit werden 12 Benchmark-Datensätze in vier Unterkategorien verwendet: Natürlichsprachliche Aufgaben, fachliches Wissen, Alltagsverständnis und mathematisches Denken. Zur Bewertung der Ausrichtung an menschlichen Werten werden 7 Datensätze zu Voreingenommenheit, Anstößigkeit und Illegalität verwendet. Für die Sicherheitsevaluation werden 6 Datensätze eingesetzt, die potenzielle Risiken fortgeschrittener Großsprachmodelle wie Machtstreben oder Selbstbewusstsein untersuchen.
In der ersten öffentlichen Evaluierung wurden 14 chinesische Großsprachmodelle mit 6 bis 72 Milliarden Parametern getestet. Die Ergebnisse zeigen, dass die proprietären Modelle Vorteile bei fachlichem Wissen und mathematischem Denken haben, aber Schwächen bei Ausrichtung und Sicherheit aufweisen. Offene Modelle schneiden besser bei Alltagsverständnis ab, haben aber insgesamt Verbesserungspotenzial.
Die Autoren planen, OpenEval kontinuierlich weiterzuentwickeln, um mit der Entwicklung chinesischer Großsprachmodelle Schritt zu halten und neue Benchmark-Datensätze einzubinden.
Stats
Die getesteten chinesischen Großsprachmodelle haben eine Größe von 6 bis 72 Milliarden Parametern.
In der ersten öffentlichen Evaluierung wurden 14 chinesische Großsprachmodelle getestet.
Quotes
"OpenEval ist eine umfassende, benutzerfreundliche, skalierbare und transparente Plattform zur Bewertung von Open-Source- und proprietären chinesischen Großsprachmodellen."
"Während proprietäre chinesische Großsprachmodelle einen deutlichen Vorteil bei fachlichem Wissen und mathematischem Denken zeigen, liegen sie bei Ausrichtung und Sicherheit hinter den Open-Source-Modellen zurück."