Concetti Chiave
StableToolBench ist ein stabiler Benchmark, der eine virtuelle API-Umgebung und ein stabiles Bewertungssystem vorschlägt, um die Stabilität und Reproduzierbarkeit des Tool-Lernens von Großen Sprachmodellen zu verbessern.
Sintesi
Der Artikel stellt den StableToolBench-Benchmark vor, der auf dem ToolBench-Benchmark aufbaut und darauf abzielt, die Stabilität und Reproduzierbarkeit des Tool-Lernens von Großen Sprachmodellen zu verbessern.
Der Artikel beginnt mit einer Analyse der Stabilitätsprobleme des ToolBench-Benchmarks, die sich auf die Leistungsstabilität, die Bewertungsstabilität und den Status der Online-APIs beziehen. Um diese Probleme zu lösen, schlägt der Artikel zwei Hauptkomponenten vor:
Virtuelles API-System: Dieses System besteht aus einem Caching-System und API-Simulatoren. Das Caching-System speichert die Antworten aller API-Aufrufe, um die Konsistenz zu gewährleisten. Der API-Simulator verwendet GPT-4, um das Verhalten von APIs zu simulieren, die nicht im Cache vorhanden sind oder nicht verfügbar sind. Durch die Kombination dieser beiden Komponenten wird ein stabiles virtuelles API-System geschaffen.
Stabiles Bewertungssystem: Dieses System führt einen zweistufigen Bewertungsprozess durch. Zunächst wird beurteilt, welche Aufgaben lösbar sind, indem mehrere Sprachmodelle verwendet werden. Anschließend werden zwei neue Metriken, Solvable Pass Rate (SoPR) und Solvable Win Rate (SoWR), eingeführt, die auf den als lösbar eingestuften Aufgaben basieren. Außerdem wird GPT-4 anstelle von GPT-3.5 als automatischer Evaluator verwendet, um die Zufälligkeit und Ungenauigkeit bei der Bewertung zu reduzieren.
Die Experimente zeigen, dass der StableToolBench-Benchmark eine deutlich stabilere Leistung der Modelle liefert, selbst wenn ein großer Anteil der APIs nicht verfügbar ist. Darüber hinaus erweisen sich die simulierten APIs als realistisch und vielfältig, und das stabile Bewertungssystem stimmt gut mit menschlichen Bewertungen überein.
Statistiche
Nur 44,4% der API-Aufrufe waren erfolgreich, während andere API-Aufrufe meist nicht verfügbar waren und verschiedene Fehler aufwiesen.
Wenn 50% der erfolgreichen APIs manuell nicht verfügbar gemacht wurden, führte dies zu einem deutlichen Leistungsrückgang bei den Baseline-Modellen.
Citazioni
"Concerns have been raised regarding the reproducibility and comparability of benchmark performance over time."
"To this end, we propose a new benchmark, named StableToolBench, which proposes a virtual API system and a stable evaluation system."