Die Studie zeigt, dass domänenübergreifende automatische Evaluatoren die Leistung von Agenten für Webnavigation und Gerätekontrolle erheblich verbessern können. Es werden zwei Ansätze untersucht: ein End-to-End-Ansatz, der direkt von Anweisungen und Screenshots zu einer Bewertung übergeht, und ein modularer Ansatz, bei dem zunächst die beobachteten Screenshots in Textbeschreibungen transkribiert und dann von einem Sprachmodell zu einer Bewertung verarbeitet werden.
Die Evaluatoren werden auf den Benchmarks WebArena und Android-in-the-Wild getestet und zeigen eine hohe Übereinstimmung mit menschlichen Urteilen. Darüber hinaus wird gezeigt, wie diese Evaluatoren verwendet werden können, um bestehende Agenten durch Inferenz-Steuerung oder gefilterte Verhaltensklonierung zu verbessern, ohne dass zusätzliche Überwachungssignale oder Demonstrationsdaten erforderlich sind. Auf WebArena verbessert der Einsatz des Evaluators die Erfolgsquote des besten GPT-4-Agenten um bis zu 29%. Auf iOS, wo Trainingsdaten knapp sind, führt die gefilterte Verhaltensklonierung mit dem Evaluator zu einer relativen Verbesserung von 75%.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문