Grunnleggende konsepter
Unser Ansatz basierend auf tiefem Reinforcement-Lernen adressiert die Routenkonstruktion und Einkaufsplanung separat, während er die Lösung aus einer globalen Perspektive bewertet und optimiert.
Sammendrag
Der Reisende-Käufer-Problem (TPP) ist ein wichtiges kombinatorisches Optimierungsproblem mit breiten Anwendungen. Aufgrund der Kopplung zwischen Routing und Einkaufen müssen bestehende Arbeiten zu TPPs Route und Einkaufsplanung gleichzeitig angehen, was jedoch zu exakten Methoden mit hohem Rechenaufwand und Heuristiken mit komplexem Design, aber begrenzter Leistung führt.
Im Gegensatz dazu schlagen wir einen neuartigen Ansatz auf der Grundlage des tiefen Reinforcement-Lernens (DRL) vor, der Routenkonstruktion und Einkaufsplanung getrennt behandelt, während er die Lösung aus einer globalen Perspektive bewertet und optimiert. Die Schlüsselkomponenten unseres Ansatzes sind eine bipartite Graphendarstellung für TPPs, um die Beziehungen zwischen Märkten und Produkten zu erfassen, und ein Richtliniennetzwerk, das Informationen aus dem bipartiten Graphen extrahiert und sie zur sequenziellen Konstruktion der Route verwendet.
Ein wesentlicher Vorteil unseres Frameworks ist, dass wir die Route effizient mit dem Richtliniennetzwerk konstruieren können und sobald die Route bestimmt ist, der zugehörige Einkaufsplan leicht durch lineare Programmierung abgeleitet werden kann, während wir unter Ausnutzung von DRL das Richtliniennetzwerk trainieren können, um das globale Lösungsziel zu optimieren. Darüber hinaus können wir durch Einführung einer Meta-Lernstrategie das Richtliniennetzwerk stabil auf großen TPP-Instanzen trainieren und über Instanzen unterschiedlicher Größen und Verteilungen hinweg gut verallgemeinern, sogar auf viel größere Instanzen, die während des Trainings nie gesehen wurden.
Statistikk
Die Lösung eines mittleren TPP-Instanz mit 100 Märkten und 50 Produkten kann auf einem Computer mit einem 2,3-GHz-Prozessor Stunden dauern, und die Rechenzeit wächst exponentiell mit der Problemgröße.
Sitater
"Unser DRL-basierter Ansatz kann signifikant besser abschneiden als etablierte TPP-Heuristiken, indem er den Optimalitätsabstand um 40%-90% reduziert, und zeigt auch einen Vorteil in der Laufzeit, insbesondere bei großen Instanzen."