本文提出了一個基於上下文多臂老虎機模型的線上決策遞延框架,考慮了預算限制。框架包括兩種不同的部分反饋模型:純老虎機反饋和完全資訊反饋。
在純老虎機反饋設定中,只有選擇的決策的回報可以被觀察到。在完全資訊設定中,可以觀察到模型的表現,但只能獲得選擇的決策的回報。
作者提出了一種基於樂觀主義的算法,利用最大似然估計和置信區間來做出遞延決策。該算法在理論上有次線性的後悔界,並在實驗中表現出色。
作者還提出了一種神經網絡變體,可以在非線性情況下學習特徵表示。實驗結果表明,該算法在真實數據集上的表現優於線性算法。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor