Skill Maschinen: Temporale logische Kompositionen von Fertigkeiten in Reinforcement Learning
Agenten können eine ausreichende Menge an Fertigkeitsprimitive erlernen, um alle hochrangigen Ziele in ihrer Umgebung zu erreichen. Die Agenten können diese Fertigkeiten dann flexibel logisch und zeitlich komponieren, um Spezifikationen in einer regulären Sprache, wie reguläre Fragmente der linearen temporalen Logik, zu erfüllen. Dies ermöglicht es den Agenten, von komplexen temporalen logischen Aufgabenspezifikationen zu nahezu optimalen Verhaltensweisen ohne weiteres Lernen zu gelangen.