Kernkonzepte
Domänenübergreifende automatische Evaluatoren können die Leistung von Agenten für Webnavigation und Gerätekontrolle erheblich verbessern.
Zusammenfassung
Die Studie zeigt, dass domänenübergreifende automatische Evaluatoren die Leistung von Agenten für Webnavigation und Gerätekontrolle erheblich verbessern können. Es werden zwei Ansätze untersucht: ein End-to-End-Ansatz, der direkt von Anweisungen und Screenshots zu einer Bewertung übergeht, und ein modularer Ansatz, bei dem zunächst die beobachteten Screenshots in Textbeschreibungen transkribiert und dann von einem Sprachmodell zu einer Bewertung verarbeitet werden.
Die Evaluatoren werden auf den Benchmarks WebArena und Android-in-the-Wild getestet und zeigen eine hohe Übereinstimmung mit menschlichen Urteilen. Darüber hinaus wird gezeigt, wie diese Evaluatoren verwendet werden können, um bestehende Agenten durch Inferenz-Steuerung oder gefilterte Verhaltensklonierung zu verbessern, ohne dass zusätzliche Überwachungssignale oder Demonstrationsdaten erforderlich sind. Auf WebArena verbessert der Einsatz des Evaluators die Erfolgsquote des besten GPT-4-Agenten um bis zu 29%. Auf iOS, wo Trainingsdaten knapp sind, führt die gefilterte Verhaltensklonierung mit dem Evaluator zu einer relativen Verbesserung von 75%.
Statistiken
Die Erfolgsquote des besten GPT-4-Agenten auf WebArena beträgt ohne Reflexion 19,0%.
Mit Reflexion unter Verwendung des GPT-4V-Evaluators steigt die Erfolgsquote auf 24,8%.
Auf iOS verbessert die gefilterte Verhaltensklonierung mit dem Captioner + Mixtral-Evaluator die Leistung des CogAgent-Modells von 8 auf 14 erfolgreiche Aufgaben.
Zitate
"Domänenübergreifende automatische Evaluatoren können die Leistung von Agenten für Webnavigation und Gerätekontrolle erheblich verbessern."
"Ohne zusätzliche Überwachung verbessern wir die state-of-the-art-Leistung um 29% auf dem beliebten Benchmark WebArena und erzielen eine 75%ige relative Verbesserung in einem herausfordernden Domänen-Transfer-Szenario."