本文提出了一个基于Stackelberg博弈的在线学习框架,用于解决供应商和零售商在新闻亭定价游戏中的需求学习和最优定价问题。该框架利用线性上下文臂章算法,在不完全信息的情况下,为领导者和追随者提供了理论保证,最小化Stackelberg后悔。