Die Studie präsentiert einen Algorithmus für lineare kontextuelle Banditen, der auf dem Best-of-Both-Worlds-Konzept basiert und die Tsallis-Entropie verwendet.
Proposing the α-Linear-Contextual (LC)-Tsallis-INF algorithm for linear contextual bandits with improved regret bounds.
提案されたアルゴリズムは、線形コンテキストバンディット問題において、Tの依存性を改善し、Tsallisエントロピーを使用してO(log(T))の後悔を得ることができます。