핵심 개념
本文提出了一个基于Stackelberg博弈的在线学习框架,用于解决供应商和零售商在新闻亭定价游戏中的需求学习和最优定价问题。该框架利用线性上下文臂章算法,在不完全信息的情况下,为领导者和追随者提供了理论保证,最小化Stackelberg后悔。
초록
本文研究了一个涉及两个学习代理的重复Stackelberg博弈问题,即供应商(领导者)和零售商(追随者)在新闻亭定价游戏中的动态定价。
- 在完全信息设置下,证明了存在唯一的Stackelberg均衡。
- 提出了一种基于线性上下文臂章算法的在线学习算法,用于解决需求参数的学习和最优定价问题。
- 提供了该算法收敛到近似Stackelberg均衡的理论保证,并给出了有限时间后悔界。
- 通过经济模拟展示了该算法在有限时间累积后悔方面优于基准算法。
통계
在完全信息设置下,存在一个唯一的纯策略Stackelberg均衡。
提出的在线学习算法可以保证收敛到近似Stackelberg均衡,并给出了有限时间后悔界。
经济模拟表明,该算法在有限时间累积后悔方面优于基准算法。