本文提出了一种名为生成概率规划(GPP)的新型生成式AI技术,用于解决供应链网络中的动态规划问题。GPP结合了注意力图神经网络(GNN)、离线深度强化学习(Offline RL)和策略模拟,生成适应变化目标(如利润或服务水平最大化)的动态供应计划,并考虑了时变的概率性需求、交货时间和生产条件。
使用鲁棒控制理论工具来描述和计算单个供应链供应商在有界预测误差和需求波动下的最坏情况订单波动。
本文提出了一个基于Stackelberg博弈的在线学习框架,用于解决供应商和零售商在新闻亭定价游戏中的需求学习和最优定价问题。该框架利用线性上下文臂章算法,在不完全信息的情况下,为领导者和追随者提供了理论保证,最小化Stackelberg后悔。