Effiziente Programmsynthese durch wertbasiertes tiefes Reinforcement Learning
Wertbasierte Reinforcement-Learning-Methoden können die Leistung bei der Programmsynthese im Vergleich zu herkömmlichen überwachten Methoden und politikbasierten RL-Methoden verbessern, indem sie die Verfügbarkeit von Offlinedaten und die einfache Überprüfung der generierten Programme nutzen.