Der Artikel präsentiert einen Deep-Reinforcement-Learning-basierten Ansatz, um das Problem der anhaltenden Überwachung durch eine einzelne Drohne mit Treibstoffbeschränkungen zu lösen.
Das Problem wird als Markov-Entscheidungsprozess (MDP) formuliert, bei dem die Drohne entscheiden muss, welche Ziele sie als Nächstes besucht, um die maximale Zeit zwischen aufeinanderfolgenden Zielbesuchen zu minimieren, während sie nie den Treibstoff ausgeht.
Um die Übertragbarkeit des Ansatzes auf Probleme mit unterschiedlicher Anzahl von Zielen zu erhöhen, wird die Verwendung von Dummy-Zielen vorgeschlagen. Außerdem wird eine Technik namens "Action Masking" eingeführt, um die Treibstoffbeschränkungen direkt in den Entscheidungsprozess der Drohne zu integrieren.
Die Ergebnisse umfangreicher Experimente zeigen, dass der Deep-Reinforcement-Learning-Ansatz im Vergleich zu einer Greedy-Heuristik deutlich bessere Ergebnisse in Bezug auf die minimale maximale Revisitzeit erzielt. Darüber hinaus erweist sich der Ansatz als robust gegenüber Änderungen der Treibstoffkapazität der Drohne.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문