本研究は、自動運転における強化学習の報酬関数設計に関する課題を包括的に分析しています。
まず、報酬関数の個別の目標を安全性、快適性、進捗、交通規則順守の4つのカテゴリーに分類し、それぞれの課題と限界を検討しました。
安全性では、単純な衝突ペナルティだけでなく、衝突の深刻度や回避行動の評価が重要です。快適性では、加速度、ジャーク、ステアリング角度などの指標を組み合わせる必要があります。進捗では、単純な距離や速度ではなく、目的地への最適経路に沿った進捗を評価する必要があります。交通規則順守では、単純な速度超過ペナルティだけでなく、状況に応じた柔軟な適用が求められます。
さらに、報酬関数の全体的な課題として、目標の単純な加重和では目標間の競合を適切に扱えないこと、使用ケースに依存した設計では汎用性が低いことなどが指摘されています。
今後の研究課題として、ルールブックによる目標の優先順位付け、状況に応じた報酬関数の動的な変更、報酬関数の自動検証フレームワークの開発などが提案されています。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania