Core Concepts
I-PHYRE ist ein neuer Benchmark, der Agenten herausfordert, intuitive physikalische Reasoning-Fähigkeiten, Mehrschrittplanung und zeitnahe Interventionen in dynamischen Umgebungen zu demonstrieren.
Abstract
I-PHYRE ist ein Benchmark, der entwickelt wurde, um die Fähigkeiten von Agenten zur interaktiven physikalischen Reasoning zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich auf passive Beobachtung oder einmalige Interventionen konzentrieren, erfordert I-PHYRE von den Agenten, schnell und intuitiv physikalische Ereignisse vorherzusagen, Mehrschrittpläne zu entwickeln und präzise Interventionen in Echtzeit durchzuführen.
Der Benchmark umfasst 40 Spiele, die in vier Splits unterteilt sind: Basis, Rauschen, Komposition und Mehrball. In diesen Spielen müssen die Agenten rote Bälle in ein Loch lenken, indem sie strategisch graue Blöcke entfernen. Die Spiele erfordern ein tiefes Verständnis der physikalischen Prinzipien und die Fähigkeit, Aktionen in einer bestimmten Reihenfolge und zu einem genauen Zeitpunkt auszuführen, um erfolgreich zu sein.
Die Experimente zeigen, dass aktuelle Reinforcement-Learning-Agenten im Vergleich zu menschlichen Spielern erhebliche Defizite bei der interaktiven physikalischen Reasoning aufweisen, insbesondere bei der Generalisierung auf neuartige Szenarien. Die Ergebnisse unterstreichen die Notwendigkeit, Agenten mit robusteren Fähigkeiten zur Interaktion mit der physikalischen Welt auszustatten.
Stats
Die Teilnehmer erzielten im Durchschnitt eine Erfolgsquote von über 80% bei der Lösung der Spiele, was ihre Fähigkeit zur Bewältigung interaktiver physikalischer Dynamiken belegt.
Quotes
"Professionelle Spieler zeigen Meisterschaft in diesem Spiel, mit Aufzeichnungen von kontinuierlichem Spiel nahe drei Stunden."
"Sogar Kleinkinder zeigen eine bemerkenswerte Fähigkeit, nahtlos mit der physikalischen Welt zu interagieren, und demonstrieren Fähigkeiten im Sehen, Interagieren und Vor-Ort-Planung."