Core Concepts
オフラインRLを活用し、物理シミュレーションに基づいた反応的で制御可能な行動シミュレーションを実現する。
Abstract
本論文では、CtRL-Simと呼ばれる新しい行動シミュレーションフレームワークを提案している。CtRL-Simは、オフラインRLを活用し、物理シミュレーションに基づいた反応的で制御可能な行動シミュレーションを実現する。
具体的には以下の通り:
- Waymo Open Motion Datasetのデータをもとに、物理シミュレーターNocturneを拡張したオフラインRLデータセットを構築した。
- 報酬の各要素(目標到達、車両-車両衝突、車両-道路端衝突)を個別にモデル化した返却条件付きの多エージェントDecision Transformerアーキテクチャを提案した。
- 返却分布の指数的傾斜を用いることで、各報酬要素に対して直感的な制御が可能となる。
- 提案手法は、既存手法と比較して、再現性、分布の現実性、常識性の観点で良好な性能を示した。
- さらに、シミュレーション上で生成した長尾シナリオでの微調整により、より広範な制御性を実現できることを示した。
Stats
車両-車両衝突を最小化するためには、返却の指数的傾斜係数を25まで上げる必要がある。
車両-道路端衝突を最小化するためには、返却の指数的傾斜係数を25まで上げる必要がある。
目標到達率を最大化するためには、返却の指数的傾斜係数を25まで上げる必要がある。