Conceptos Básicos
TUR[K]INGBENCH ist ein Benchmark für Web-Agenten, der komplexe Aufgaben auf natürlichen HTML-Seiten mit multimodalen Kontextinformationen umfasst. Der Benchmark zielt darauf ab, die Fähigkeiten von Modellen zur Verarbeitung und Interaktion mit Webinhalten zu evaluieren.
Resumen
TUR[K]INGBENCH ist ein Benchmark, der 158 Web-basierte Aufgaben umfasst, die aus realen Crowdsourcing-Aufträgen auf der Amazon Mechanical Turk (AMT) Plattform gesammelt wurden. Die Aufgaben beinhalten verschiedene Modalitäten wie Text, Bilder und Tabellen und erfordern ein tiefes Verständnis der Webinhalte sowie interaktive Fähigkeiten, um die Aufgaben zu lösen.
Der Benchmark bietet eine standardisierte Umgebung, um die Leistung von Modellen bei der Verarbeitung und Interaktion mit Webinhalten zu evaluieren. Die Aufgaben sind in natürlichen HTML-Seiten eingebettet und erfordern von den Modellen, die Instruktionen zu verstehen, relevante Informationen aus den Seiten zu extrahieren und dann geeignete Aktionen auszuführen, um die Aufgaben zu lösen.
Der Benchmark umfasst 32.200 Instanzen, die auf 158 verschiedene Aufgaben verteilt sind. Zur Evaluation der Modelle wurde ein Framework entwickelt, das die Interaktion der Modelle mit den Webseiten ermöglicht und die Leistung anhand verschiedener Metriken bewertet.
Die Ergebnisse der Evaluation zeigen, dass aktuelle Spitzenmodelle wie GPT-4 zwar deutlich besser als der Zufallsbaseline abschneiden, aber noch erheblichen Raum für Verbesserungen haben, um die Leistung des menschlichen Referenzstandards zu erreichen. Der Benchmark soll die Entwicklung von leistungsfähigen Web-Agenten vorantreiben.
Estadísticas
Die Aufgaben in TUR[K]INGBENCH enthalten durchschnittlich 15,6 Eingabefelder.
Die durchschnittliche Länge der Aufgaben beträgt 16.800 Subwörter.
Citas
"Recent chatbots have demonstrated impressive ability to understand and communicate in raw-text form. However, there is more to the world than raw text."
"Can state-of-the-art multi-modal models generalize to such complex domains?"