AgentQuest: Ein modulares Benchmark-Framework zur Messung des Fortschritts und Verbesserung von LLM-Agenten
AgentQuest ist ein modulares Framework, das es ermöglicht, verschiedene Benchmarks und Metriken zur Bewertung und Verbesserung von LLM-Agenten zu verwenden. Es bietet zwei neue Bewertungsmetriken, die den Fortschritt und die Wiederholungsrate von Agenten beim Lösen einer Aufgabe zuverlässig verfolgen können.