核心概念
儘管基於深度強化學習的像素到動作控制方法在自動駕駛領域備受關注,但其訓練效率和泛化能力存在局限性。本研究通過參與 Learn to Race 自動駕駛賽車挑戰賽,證明了基於傳統計算機視覺和規則控制的方法在資源有限的情況下,也能實現優異的性能,並強調了其在可解釋性、泛化性和可調試性方面的優勢。
本研究論文描述了澳洲阿德萊德大學機器學習研究所團隊參與 2022 年 Learn to Race 自動駕駛虛擬挑戰賽的獲獎方案。該競賽旨在促進自動駕駛技術的發展,特別關注自動駕駛的安全性。參賽者需要開發一個自動駕駛智能體,控制虛擬賽車在賽道上行駛,目標是在遵守安全規則的前提下,盡可能快速地完成比賽。
團隊最初嘗試了基於深度強化學習(RL)的方法,特別是 Soft Actor Critic(SAC)的變體,目標是直接從視覺特徵學習賽車控制策略。然而,由於競賽框架僅提供實時反饋,單次訓練時間較長,限制了 RL 方法的探索效率。
為此,團隊最終採用了一種更傳統的方法,即結合計算機視覺和規則控制。該方法利用語義分割網絡識別賽道中心線和車輛位置,並根據預先定義的規則控制車輛轉向和加速。