Detaillierte Untersuchung von Switchback-Designs in der Verstärkungslernung zur Verbesserung der Genauigkeit von Schätzungen des durchschnittlichen Behandlungseffekts
Switchback-Designs, bei denen zwischen einer Baseline- und einer neuen Politik abgewechselt wird, können die Genauigkeit der Schätzung des durchschnittlichen Behandlungseffekts im Vergleich zu alternierenden Tagesdesigns verbessern, insbesondere wenn die Mehrheit der Belohnungsfehler positiv korreliert ist.