Durch Feinabstimmung mit spezifischen Agentendaten und Techniken wie Multi-Path-Reasoning und Aufgabenzersetzung können die Agentenfähigkeiten von LLMs mit geringen Parametern wie 7B und 13B signifikant verbessert werden.
Ein Framework, das es Sprachagenten ermöglicht, autonome Annotationen ihrer Trajektorien im Stil von ReAct zu erstellen und diese dann für kontrastives Selbsttraining zu nutzen, um ihre Leistung zu verbessern.