本研究では、オフロード環境での自律走行を実現するためのエンドツーエンドの強化学習システム「WROOM」を提案している。
まず、Unity ゲームエンジンを用いて、オフロード走行を模擬した新しいシミュレーション環境「OffTerSim」を開発した。この環境では、様々な地形や障害物が随機的に生成され、エージェントの一般化能力を高めることができる。
次に、深度カメラからの入力を直接制御コマンドに変換するポリシーモデルを構築した。ポリシーの最適化にはPPOアルゴリズムを用い、制御バリア関数を報酬関数に組み込むことで安全性を確保している。
さらに、特権情報を持つ専門家の挙動を模倣することで、効率的な学習を実現している。最終的に、シミュレーション上で学習したポリシーをリアルワールドのRCカーに適用し、オフロード走行を実現している。
本手法は、オフロード環境での自律走行に関する重要な課題に取り組んでおり、シミュレーションからリアルワールドへの転移を実現した点で大きな意義がある。
翻譯成其他語言
從原文內容
arxiv.org
深入探究