핵심 개념
Die Kernaussage dieses Artikels ist, dass die vorgeschlagene Anchored Top-2 (AT2) Algorithmus asymptotisch optimal ist, um den Arm mit dem größten Mittelwert unter einer endlichen Anzahl von Armen zu identifizieren, während die Wahrscheinlichkeit einer falschen Auswahl unter einem vorgegebenen Schwellenwert δ gehalten wird.
초록
Der Artikel befasst sich mit dem stochastischen Best-Arm-Identifikationsproblem (BAI), bei dem das Ziel darin besteht, den Arm mit dem größten Mittelwert aus einer endlichen Anzahl von unbekannten Wahrscheinlichkeitsverteilungen zu identifizieren. Der Autor präsentiert einen Anchored Top-2 (AT2) Algorithmus, der asymptotisch optimal ist, d.h. der die untere Schranke für den Stichprobenumfang erreicht, wenn δ gegen Null geht.
Der Algorithmus basiert auf der Beobachtung, dass die Indizes der Herausfordererarme, sobald sie gezogen werden, zusammen ansteigen, bis sie die Indizes der Arme mit höheren Indizes erreichen. Sobald alle Indizes gezogen wurden, sind die Proportionen der Stichproben für den empirischen Gewinner und die verbleibenden Arme nahe den optimalen Proportionen gemäß der unteren Schranke. Der Algorithmus stoppt, sobald das verallgemeinerte Log-Likelihood-Verhältnis-Statistik einen Schwellenwert überschreitet.
Die Analyse des Algorithmus erfolgt durch die Konstruktion einer idealisierten Fluiddynamik, bei der die Indizes, die bereits gezogen wurden, gleich bleiben und zusammen ansteigen. Mithilfe des impliziten Funktionentheorems können die gewöhnlichen Differentialgleichungen identifiziert werden, denen die Armallokationen folgen. Es wird gezeigt, dass der vorgeschlagene Algorithmus nahe an der Fluiddynamik bleibt und asymptotisch optimal ist.
통계
Der Stichprobenumfang des Algorithmus ist asymptotisch beschränkt durch log(1/δ) / T*(μ), wobei T*(μ) die Lösung des Optimierungsproblems ist, das die untere Schranke für den Stichprobenumfang definiert.
Die Allokation der Stichproben durch den Algorithmus konvergiert fast sicher zu den optimalen Proportionen ω*.
인용구
"Die Kernaussage dieses Artikels ist, dass die vorgeschlagene Anchored Top-2 (AT2) Algorithmus asymptotisch optimal ist, um den Arm mit dem größten Mittelwert unter einer endlichen Anzahl von Armen zu identifizieren, während die Wahrscheinlichkeit einer falschen Auswahl unter einem vorgegebenen Schwellenwert δ gehalten wird."
"Der Algorithmus stoppt, sobald das verallgemeinerte Log-Likelihood-Verhältnis-Statistik einen Schwellenwert überschreitet."