Die Studie untersucht den Einsatz von Reinforcement Learning (RL) zum Online-Testen von Autonomen Fahrsystemen (AFS). Sie beginnt mit einer Replikationsstudie, die zeigt, dass der von Haq et al. vorgeschlagene MORLOT-Ansatz (Many-Objective Reinforcement Learning for Online Testing) keine signifikanten Verbesserungen gegenüber reinem Zufallstesten erzielt. Die Autoren identifizieren zwei Hauptgründe für die schlechte Leistung von MORLOT: 1) die Verwendung von Q-Learning, das eine Diskretisierung des kontinuierlichen Zustandsraums erfordert, und 2) die Definition der Belohnungsfunktion, die widersprüchliche oder nutzlose Rückmeldungen an den RL-Agenten liefert.
In der Erweiterungsstudie zeigen die Autoren, dass ein Deep-RL-Agent (DQN) in den meisten Testszenarien in der Lage ist, eine effektive Politik zu erlernen, die deutlich mehr Verletzungen der Sicherheitsanforderungen auslöst als sowohl Q-Learning als auch Zufallstesten. DQN ist auch effizienter als die Vergleichsansätze bei der Erkennung solcher Verletzungen. Die Ergebnisse der Erweiterungsstudie zeigen, dass RL ein vielversprechender Rahmen für das Testen hochdynamischer Systeme wie AFS ist, aber weitere Forschung erforderlich ist, um die Einschränkungen der derzeitigen Formulierung zu beheben.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Luca Giamatt... في arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13729.pdfاستفسارات أعمق