Centrala begrepp
Unser Ansatz kombiniert Multi-Ziel-Verstärkungslernen (MORL) mit demonstrations-basiertem Lernen, um eine anpassungsfähige Navigationspolitik zu entwickeln, die sich an sich ändernde Benutzerpräferenzen ohne Neutraining anpassen kann.
Sammanfattning
Dieser Artikel stellt einen neuartigen Rahmen vor, der die Flexibilität des Multi-Ziel-Verstärkungslernens mit den Personalisierungsfähigkeiten des demonstrations-basierten Lernens vereint, um die einzigartigen Herausforderungen der sozialen Roboternavigation anzugehen.
Der Ansatz ermöglicht eine dynamische Anpassung an sich ändernde Benutzerpräferenzen ohne Neutraining. Durch rigorose Evaluierungen, einschließlich Sim-zu-Real- und Roboter-zu-Roboter-Transfers, zeigen wir die Fähigkeit unseres Rahmens, Benutzerpräferenzen genau widerzuspiegeln, während gleichzeitig eine hohe Navigationsleistung in Bezug auf Kollisionsvermeidung und Zielverfolgung erreicht wird.
Die Hauptbeiträge der Arbeit sind:
Ein Multi-Ziel-Verstärkungslernen-Rahmen für die soziale Roboternavigation, der eine Politikanpassung nach dem Training ermöglicht.
Die Einbeziehung von Demonstrationsdaten als einstellbares Ziel.
Umfangreiche qualitative und quantitative Analysen einschließlich eines Sim-zu-Real- und Roboter-zu-Roboter-Transfers.
Statistik
Die Navigationszeit ist am kleinsten bei maximierter Effizienzpräferenz.
Der Fréchet-Abstand zur Demonstrationstrajektorie nimmt ab, wenn die Demonstrationspräferenz zunimmt.
Der minimale Abstand zu Hindernissen wird direkt vom Lidar-Sensor übernommen.
Der minimale Abstand zum Menschen wächst mit seinem Präferenzgewicht.
Citat
Keine relevanten Zitate gefunden.