Core Concepts
Switchback-Designs, bei denen zwischen einer Baseline- und einer neuen Politik abgewechselt wird, können die Genauigkeit der Schätzung des durchschnittlichen Behandlungseffekts im Vergleich zu alternierenden Tagesdesigns verbessern, insbesondere wenn die Mehrheit der Belohnungsfehler positiv korreliert ist.
Abstract
Die Studie untersucht die Auswirkungen verschiedener Switchback-Designs auf die Genauigkeit der resultierenden Schätzer für den durchschnittlichen Behandlungseffekt (ATE) in Verstärkungslernung.
Es wird ein neuartiger "Schwachsignal-Analyserahmen" eingeführt, der die Berechnung der mittleren quadratischen Fehler (MSE) dieser ATE-Schätzer in Markov-Entscheidungsprozess-Umgebungen erheblich vereinfacht.
Die Ergebnisse zeigen:
- Wenn die Mehrheit der Belohnungsfehler positiv korreliert ist, ist das Switchback-Design effizienter als das Alternating-Day-Design mit täglichem Politikwechsel. Eine höhere Wechselfrequenz tendiert dazu, den MSE des ATE-Schätzers zu verringern.
- Bei unkorrelierten Fehlern werden alle Designs asymptotisch äquivalent.
- Wenn die Mehrheit der Fehler negativ korreliert ist, wird das Alternating-Day-Design zur optimalen Wahl.
Diese Erkenntnisse bieten wichtige Richtlinien für Praktiker beim Entwurf von Experimenten im A/B-Testing.
Stats
Die Mehrheit der geschätzten Korrelationskoeffizienten zwischen Paaren von angepassten Belohnungsresiduen zeigt eine positive Korrelation.
Quotes
Keine relevanten Zitate identifiziert.