Der Artikel untersucht die Herausforderungen, die LLM-Agenten bei der Lösung offener Aufgaben in interaktiven Umgebungen gegenüberstehen. Bestehende Methoden, die Entscheidungsfindung und Reasoning der Agenten durch Prompt-Engineering verbessern, vernachlässigen oft den Prozess der Exploration und Ausbeutung. Dies führt zu suboptimalen Lösungen und hohem Ressourcenverbrauch.
Um diese Limitationen zu adressieren, schlägt der Artikel einen neuartigen Ansatz namens "Weak Exploration to Strong Exploitation" (WESE) vor. WESE entkoppelt die Exploration und Ausbeutung, indem zwei separate LLM-Agenten eingesetzt werden. Der schwächere Agent übernimmt die Exploration, um globale Umgebungsinformationen zu sammeln. Diese Informationen werden dann in einem Wissensgraphen strukturiert und dem stärkeren Agenten für die Ausbeutungsphase zur Verfügung gestellt. Durch den Einsatz eines schwächeren Agenten für die Exploration können Kosten eingespart werden, ohne die Leistung signifikant zu beeinträchtigen.
Die Experimente auf vier interaktiven Benchmarks zeigen, dass WESE eine bemerkenswerte Balance zwischen Effektivität, Effizienz und Kosten erreicht. Im Vergleich zu bestehenden Methoden erzielt WESE deutliche Verbesserungen bei der Erfolgsquote, der durchschnittlichen Schrittanzahl und den Kosten.
翻譯成其他語言
從原文內容
arxiv.org
深入探究