Effizientes Online-Lernen in Stackelberg-Spielen mit Newsvendor-Preissetzung
In einem Stackelberg-Spiel mit einem Lieferanten (Anführer) und einem Einzelhändler (Folger) lernen beide Akteure die Parameter der stochastischen Nachfragefunktion, um ihre Gewinne zu maximieren. Der Anführer bestimmt den optimalen Großhandelspreis, während der Folger den optimalen Bestellmengen und Verkaufspreis festlegt.