Der Artikel befasst sich mit einem Szenario, in dem eine Drohne eine Reihe von Punkten (PoIs) sequenziell beobachten muss, während ein mobiles Ladegerät die Drohne aufladen kann, bevor ihr Akku leer wird. Das Ziel ist es, einen effizienten Flug- und Ladezeitplan zu finden, um die Beobachtungseffizienz zu maximieren und gleichzeitig sicherzustellen, dass die Drohne während der Aufgabenausführung betriebsbereit bleibt.
Der Artikel beschreibt zunächst das Systemmodell und formuliert das Problem als ein mehrstufiges Entscheidungsproblem mit diskreten und kontinuierlichen Aktionen für Drohne und Ladegerät. Anschließend wird ein Hybrid-Action Deep Reinforcement Learning-Ansatz (HaDMC) vorgestellt, um dieses Problem zu lösen. HaDMC verwendet einen Repräsentationslernsatz, um den hybriden Aktionsraum in einen kontinuierlichen latenten Aktionsraum umzuwandeln. Ein speziell entworfener Aktionsdekoder übersetzt dann die latenten Aktionen in originale diskrete und kontinuierliche Aktionen, die Drohne und Ladegerät direkt mit der Umgebung interagieren lassen. Dabei wird ein gegenseitiges Lernschema in den Trainingsprozess eingebunden, um die Zusammenarbeit zwischen Drohne und Ladegerät zu betonen.
Umfangreiche numerische Experimente zeigen die Wirksamkeit und Effizienz des HaDMC-Ansatzes im Vergleich zu anderen Deep Reinforcement Learning-Methoden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jizhe Dou,Ha... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10761.pdfDeeper Inquiries