Die Studie untersucht das Problem der Identifizierung des besten Arms (Best Arm Identification, BAI) mit festem Budget in stochastischen zweiarrmigen Gaußschen Bandits. In diesem Problem führen wir ein adaptives Experiment mit einer festen Anzahl von Runden, genannt Budget, durch. In jeder Runde können wir einen Arm ziehen und die Belohnung beobachten. Das Ziel des Problems ist es, am Ende des Experiments den besten Arm mit der höchsten erwarteten Belohnung zu identifizieren.
Die Studie entwickelt eine Strategie, die Neyman-Allokation (NA)-Augmented Inverse Probability Weighting (AIPW) Strategie, deren Wahrscheinlichkeit der Fehlidentifizierung asymptotisch der unteren Schranke entspricht, die von Kaufmann et al. (2016) hergeleitet wurde. Dies wird im sogenannten "small-gap"-Regime gezeigt, in dem sich die Differenz der erwarteten Belohnungen der beiden Arme der Null annähert. Dieser zusätzliche Rahmen vereinfacht das Problem zwar etwas, es bleibt jedoch immer noch ausreichend komplex, da der kleine Abstand die Identifizierung des besten Arms erschwert.
Die Studie zeigt, dass der Schätzfehler der Varianzen im Vergleich zur Schwierigkeit, den besten Arm zu identifizieren, vernachlässigbar ist, wenn der Abstand klein ist. Daher ist die NA-AIPW-Strategie, die die Varianzen schätzt, asymptotisch optimal, selbst wenn die Varianzen unbekannt sind.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Masahiro Kat... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2312.12741.pdfDeeper Inquiries