In dieser Arbeit stellen wir einen neuartigen Ansatz namens LORD (Large Models based Opposite Reward Design) für das Belohnungsdesign für autonomes Fahren vor. LORD nutzt große vortrainierte Modelle als Nullstellen-Belohnungsmodelle, indem er unerwünschte sprachliche Ziele anstelle von erwünschten Zielen verwendet.
In autonomen Fahrszenarios ist es schwierig, erwünschte sprachliche Ziele wie "sicher fahren" für große vortrainierte Modelle verständlich zu definieren. Stattdessen bieten unerwünschte sprachliche Ziele wie "Kollision" ein greifbareres und verständlicheres Ziel sowohl für Menschen als auch für große vortrainierte Modelle. Durch die Einführung des entgegengesetzten Belohnungsdesigns zielt LORD darauf ab, die Interpretierbarkeit, Generalisierungsfähigkeit und Effektivität von Systemen für autonomes Fahren zu verbessern, damit sie komplexe Umgebungen sicher navigieren können.
LORD nutzt große vortrainierte Bild-, Video- und Sprachmodelle mit einem Kosinus-Distanz-Ziel für ein effizientes Belohnungsdesign für RL-basiertes autonomes Fahren. Durch umfangreiche Experimente zeigt unser Ansatz eine deutlich verbesserte Leistung gegenüber konkurrierenden Methoden in verschiedenen Fahrszenarios.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Xin Ye,Feng ... às arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.18965.pdfPerguntas Mais Profundas