Core Concepts
Durch den Einsatz von Multi-Agenten-Deep-Reinforcement-Learning können die Positionen und Anregungsstromgewichte einer Gruppe von UAVs so optimiert werden, dass die Übertragungsrate zur Basisstation maximiert und der Energieverbrauch der UAVs minimiert wird.
Abstract
In diesem Artikel wird ein UAV-gestütztes Kommunikationssystem untersucht, bei dem mehrere UAVs ein virtuelles Antennenarray (UVAA) bilden, um mit entfernten Basisstationen über kollaboratives Beamforming zu kommunizieren. Um die Effizienz des UVAA zu verbessern, wird ein mehrkriterielles Optimierungsproblem (UCBMOP) formuliert, das darauf abzielt, die Übertragungsrate des UVAA zu maximieren und den Energieverbrauch aller UAVs zu minimieren, indem die Positionen und Anregungsstromgewichte der UAVs optimiert werden.
Da diese beiden Optimierungsziele miteinander in Konflikt stehen und nicht-konkav in Bezug auf die Optimierungsvariablen sind, ist das Problem schwierig zu lösen. Außerdem ist das System dynamisch und die Zusammenarbeit zwischen den UAVs komplex, sodass herkömmliche Methoden viel Zeit zum Berechnen der Optimierungslösung für eine einzelne Aufgabe benötigen. Darüber hinaus wird die zuvor erhaltene Lösung bei Änderung der Aufgabe ungültig und muss neu berechnet werden.
Um diese Probleme zu lösen, wird ein Multi-Agenten-Deep-Reinforcement-Learning-Ansatz (MADRL) verwendet. Insbesondere wird das heterogene Agenten-Trust-Region-Policy-Optimierung-Verfahren (HATRPO) als Grundgerüst verwendet und dann ein verbesserter HATRPO-Algorithmus, nämlich HATRPO-UCB, vorgeschlagen, bei dem drei Techniken eingeführt werden, um die Leistung zu verbessern.
Die Simulationsergebnisse zeigen, dass der vorgeschlagene Algorithmus im Vergleich zu anderen Methoden eine bessere Strategie erlernen kann. Darüber hinaus zeigen umfangreiche Experimente auch die Wirksamkeit der vorgeschlagenen Techniken.
Stats
Die Übertragungsrate des UVAA zur Basisstation bei verschiedenen Entfernungen beträgt bis zu 10^7 Bit pro Sekunde.
Die Energiekosten für den vertikalen Flug eines UAVs sind höher als für den horizontalen Flug.
Quotes
"Durch den Einsatz von Multi-Agenten-Deep-Reinforcement-Learning können die Positionen und Anregungsstromgewichte einer Gruppe von UAVs so optimiert werden, dass die Übertragungsrate zur Basisstation maximiert und der Energieverbrauch der UAVs minimiert wird."
"Die Simulationsergebnisse zeigen, dass der vorgeschlagene Algorithmus im Vergleich zu anderen Methoden eine bessere Strategie erlernen kann."