Core Concepts
強化学習を用いた自動車の意思決定と制御における交通流ランダム化の重要性。
Abstract
この記事は、強化学習を使用して自動車の意思決定と制御を行う際に、交通流ランダム化がどれだけ重要かに焦点を当てています。実際の交通シーンで訓練されたモデルがテストされる際にパフォーマンスが低下する可能性があることを指摘しています。ドメインランダム化トラフィックフローで訓練されたポリシーは、他の微視的なトラフィックフローでテストされたモデルよりも優れた成功率と計算報酬を示すことが示唆されています。
Stats
トレーニング時間:1.5時間(ドメインランダマイズ無し)、5時間(高度な忠実度)、1.5時間(ドメインランダマイズ)
テストエピソード数:1000エピソード
成功率:ドメインランダマイズ無し(98.90%)、高度な忠実度(99.70%)、ドメインランダマイズ(100%)
平均報酬:ドメインランダマイズ無し(200.50)、高度な忠実度(205.32)、ドメインランダマイズ(197.15)
Quotes
"Policy trained under the domain randomization microscopic traffic flow is able to maintain high rewards and success rates when tested under different microscopic traffic flows."
"Domain randomization traffic flow has excellent adaptability to different types of traffic flow types."
"The policy trained under domain randomization microscopic traffic flow consistently achieves success rates above 90% when tested across all three traffic flows."