核心概念
Ausführbarer Programmcode ermöglicht es LLM-Agenten, komplexe Aufgaben durch Nutzung bestehender Software-Pakete und selbstständiges Debuggen zu lösen.
摘要
Der Artikel stellt CodeAct vor, ein Framework, das es LLM-Agenten ermöglicht, ausführbaren Python-Code als Aktionen zu generieren. Im Vergleich zu herkömmlichen Aktionsformaten wie Text oder JSON bietet CodeAct folgende Vorteile:
- Integriert mit einem Python-Interpreter können CodeAct-Aktionen ausgeführt und basierend auf den Beobachtungen (z.B. Fehlermeldungen) in mehreren Interaktionsrunden dynamisch angepasst oder neue Aktionen generiert werden.
- Durch die Nutzung bestehender Python-Bibliotheken können LLM-Agenten auf eine erweiterte Aktionspalette zurückgreifen, anstatt auf manuell erstellte, aufgabenspezifische Tools angewiesen zu sein.
- Die inhärente Unterstützung von Kontroll- und Datenfluss in Code ermöglicht es LLM-Agenten, komplexe logische Operationen (z.B. if-Abfragen, for-Schleifen) in einer einzigen Aktion auszuführen, anstatt mehrere Aktionen für dieselbe Aufgabe zu benötigen.
Umfangreiche Experimente mit 17 LLMs bestätigen die Vorteile von CodeAct. Um die Leistungsfähigkeit von Open-Source-LLMs in Bezug auf CodeAct zu verbessern, stellt der Artikel zudem CodeActInstruct vor, einen Datensatz für Instruktions-Finetuning, der auf Agent-Umgebungs-Interaktionen fokussiert. Der daraus resultierende CodeActAgent, der auf LLaMA-2 und Mistral basiert, zeigt verbesserte Leistung in agentenorientierten Aufgaben, ohne die allgemeine Leistungsfähigkeit zu beeinträchtigen.
统计
Der durchschnittliche Erfolgsgrad von CodeAct ist bis zu 20% höher als bei Verwendung von Text oder JSON als Aktionsformat.
CodeAct benötigt bis zu 30% weniger Interaktionsschritte als die Vergleichsformate.
引用
"Ausführbarer Programmcode ermöglicht es LLM-Agenten, bestehende Software-Pakete zu nutzen und selbstständig Fehler zu beheben, was ihre Leistungsfähigkeit bei komplexen Aufgaben deutlich verbessert."
"Im Vergleich zu Text oder JSON bietet Code inhärente Unterstützung für Kontroll- und Datenfluss, was es LLM-Agenten ermöglicht, komplexe logische Operationen in einer einzigen Aktion auszuführen."