Core Concepts
Großsprachmodelle (LLMs) benötigen oft mehrere Interaktionsrunden mit Nutzern, manchmal unterstützt durch externe Werkzeuge, um komplexe Aufgaben zu lösen. Aktuelle Evaluierungsprotokolle konzentrieren sich jedoch meist auf die Leistung in einzelnen Durchgängen und vernachlässigen die nuancierten Interaktionen zwischen Nutzer, LLM und externen Werkzeugen sowie die Bedeutung von natürlichsprachlichem Feedback von Nutzern. MINT ist ein Benchmark, der die Fähigkeit von LLMs bewertet, herausfordernde Aufgaben durch mehrgliedrige Interaktionen unter Verwendung von Werkzeugen und unter Berücksichtigung von natürlichsprachlichem Feedback zu lösen.
Abstract
MINT ist ein Benchmark, der die Fähigkeit von Großsprachmodellen (LLMs) bewertet, komplexe Aufgaben durch mehrgliedrige Interaktionen zu lösen. Dafür werden zwei Kernfähigkeiten gemessen:
Die Fähigkeit, Aufgaben unter Verwendung externer Werkzeuge zu lösen. Dazu können die LLMs Python-Code generieren und ausführen, um Probleme schrittweise zu lösen.
Die Fähigkeit, natürlichsprachliches Feedback von Nutzern zu nutzen, um Lösungen zu verbessern. Dafür simuliert der Benchmark Nutzerfeedback mithilfe von GPT-4.
Für die Evaluation werden acht etablierte Datensätze aus den Bereichen Reasoning, Programmierung und Entscheidungsfindung verwendet. Um die Kosten für die mehrgliedrige Evaluation zu begrenzen, wurde eine Teilmenge von 586 repräsentativen und herausfordernden Beispielen zusammengestellt.
Die Ergebnisse zeigen, dass alle evaluierten LLMs von der Werkzeugnutzung und dem Nutzerfeedback profitieren, mit Leistungssteigerungen von 1-8% pro zusätzlicher Interaktionsrunde und 2-17% durch Nutzerfeedback. Allerdings führen eine höhere Einzeldurchgangsleistung nicht zwangsläufig zu einer besseren Mehrfachdurchgangsleistung. Außerdem zeigt sich eine bemerkenswerte Lücke zwischen quelloffenen und proprietären LLMs in Bezug auf die Mehrfachdurchgangsleistung. Überraschenderweise verschlechtern sich bei den meisten evaluierten LLMs die Mehrfachdurchgangsleistungen durch überwachtes feintunning (SIFT) und Verstärkungslernen mit menschlichem Feedback (RLHF).
MINT kann dazu beitragen, den Fortschritt zu messen und zukünftige Forschung zur Verbesserung der Mehrfachdurchgangsleistung von LLMs anzuregen, insbesondere in quelloffenen Gemeinschaften, in denen mehrgliedrige Bewertungen durch Menschen weniger zugänglich sind als bei kommerziellen LLMs mit einer größeren Nutzerbasis.
Stats
Die Leistungssteigerung durch zusätzliche Interaktionsrunden beträgt 1-8% pro Runde.
Die Leistungssteigerung durch Nutzerfeedback beträgt 2-17%.
Quotes
"Alle evaluierten LLMs profitieren von der Werkzeugnutzung und dem Nutzerfeedback, mit Leistungssteigerungen von 1-8% pro zusätzlicher Interaktionsrunde und 2-17% durch Nutzerfeedback."
"Es zeigt sich eine bemerkenswerte Lücke zwischen quelloffenen und proprietären LLMs in Bezug auf die Mehrfachdurchgangsleistung."
"Überraschenderweise verschlechtern sich bei den meisten evaluierten LLMs die Mehrfachdurchgangsleistungen durch überwachtes Feintunning (SIFT) und Verstärkungslernen mit menschlichem Feedback (RLHF)."