Effizientes Iteratives Reinforcement Learning-Framework für automatisches Bieten
Das vorgeschlagene Verfahren kombiniert eine trajektorienbasierte Exploration und Ausbeutung, um die Leistung von iterativem Offline-Reinforcement Learning für automatisches Bieten in Online-Werbung zu verbessern. Zusätzlich wird ein sicheres Explorationsverfahren entwickelt, um die Sicherheit des Trainingsprozesses zu gewährleisten.