Centrala begrepp
Ein neuer systematischer Algorithmus, der eine Reihe von Metriken zur Bewertung von Beispielen verwendet, um die Prompt-Auswahl zu verbessern und die Leistung von Sprachmodellen bei mathematischen Reasoning-Aufgaben und Robotersteuerungsaufgaben zu steigern.
Sammanfattning
Der Artikel präsentiert einen neuen Algorithmus zur Auswahl und Erweiterung von Beispielen, um die Leistung von Sprachmodellen bei komplexen Aufgaben wie der Code-Generierung zu verbessern. Der Algorithmus umfasst drei Hauptstufen:
- Erweiterung der vorhandenen Beispiele durch Beispielaugmentierung, um die Vielfalt und Relevanz zu erhöhen.
- Bewertung der Nützlichkeit jedes Beispiels anhand einer Reihe von Metriken wie Komplexität, semantische Ähnlichkeit und Konzeptüberlappung.
- Entfernung von Beispielen mit niedriger Bewertung, um die Anzahl der Prompts zu reduzieren.
Der Algorithmus wird auf zwei mathematische Reasoning-Datensätze (GSM8K und SVAMP) sowie in einer simulierten Tischmanipulationsumgebung evaluiert. Die Ergebnisse zeigen, dass der Algorithmus die Genauigkeit der Sprachmodelle verbessert und gleichzeitig die Anzahl der verwendeten Beispiele reduziert, was für industrielle Automatisierungsanwendungen von Vorteil ist.
Statistik
Die Genauigkeit auf dem GSM8K-Datensatz wurde um 0,3% erhöht, während die Anzahl der verwendeten Beispiele um 55,8% reduziert wurde.
Die Genauigkeit auf dem SVAMP-Datensatz wurde um 1,0% erhöht, während die Anzahl der verwendeten Beispiele um 53,4% reduziert wurde.
In der simulierten Tischmanipulationsumgebung wurde die Erfolgsquote um 3,4% erhöht, während die Anzahl der verwendeten Beispiele um 71,7% reduziert wurde.
Citat
"Unser Algorithmus zeigt eine Verbesserung der Leistung auf den GSM8K- und SVAMP-Benchmarks, mit Steigerungen von 0,3% bzw. 1,1%."
"In der simulierten Tischmanipulationsumgebung übertrifft unser Algorithmus den Code-as-Policies-Ansatz, indem er eine 3,4%ige Steigerung der erfolgreichen Aufgabenabschlüsse und eine Verringerung von über 70% bei der Anzahl der verwendeten Beispiele erreicht."