Core Concepts
Durch Feinabstimmung mit spezifischen Agentendaten und Techniken wie Multi-Path-Reasoning und Aufgabenzersetzung können die Agentenfähigkeiten von LLMs mit geringen Parametern wie 7B und 13B signifikant verbessert werden.
Abstract
Die Studie untersucht die Agentenfähigkeiten von LLMs mit geringen Parametern (7B und 13B) und schlägt zwei Ansätze vor, um diese zu verbessern:
Überwachte Feinabstimmung (SFT) mit konstruierten Agentendaten:
Verwendung von GPT-4, um interaktive Agentendaten zu generieren, die Aufgabenplanung, Langzeitgedächtnis und Werkzeugnutzung abdecken
Mischung der Agentendaten mit allgemeinen Instruktionsdaten, um die Allgemeingültigkeit zu erhalten
Einsatz von LORA-Feinabstimmung, um die Agentenfähigkeiten der LLMs zu verbessern
Multi-Path-Reasoning mit Aufgabenzersetzung:
Zerlegung komplexer Aufgaben in kleinere Teilaufgaben, um die Komplexität zu reduzieren
Einführung eines Rückverfolgungs-Mechanismus, um alternative Lösungswege zu erkunden, wenn ein Weg nicht optimal ist
Kombination von Aufgabenzersetzung und Rückverfolgung, um die Problemlösungsfähigkeiten der LLMs zu erhöhen
Die Experimente auf dem AgentBench-Benchmark zeigen, dass diese Ansätze die Agentenfähigkeiten von 7B- und 13B-LLMs deutlich verbessern können.
Stats
"Für diese Modelle mit relativ geringer Parameterzahl kann die überwachte Feinabstimmung die Halluzinationsausgaben und Formatierungsfehler bei Agententasks erheblich reduzieren."
"Techniken wie Multi-Path-Reasoning und Aufgabenzersetzung können die Komplexität des Problems effektiv verringern und die Leistung der LLMs als Agenten verbessern."
Quotes
"Im Gegensatz zu kommerziellen LLMs zeigen kleine Open-Source-LLMs nach wie vor erhebliches Potenzial für Verbesserungen."
"Für diese Modelle mit relativ geringer Parameterzahl kann die überwachte Feinabstimmung die Halluzinationsausgaben und Formatierungsfehler bei Agententasks erheblich reduzieren."