核心概念
深層学習を用いることで、従来のクラスタリング手法よりも高精度に、動的グリッドマップから様々な種類の動的オブジェクトを検出できる。
要約
動的グリッドマップ上の深層学習による動的オブジェクト検出
この論文は、自動運転における動的オブジェクト検出のための深層学習ベースの手法を提案しています。
動的オブジェクト検出の課題
自動運転システムにおいて、周囲環境の認識と表現は重要な要素です。従来の動的オブジェクト検出手法の多くは、車両、自転車、歩行者などの既知のオブジェクトクラスの検出に焦点を当ててきました。しかし、現実には動的になりうるオブジェクトは既知のクラスに限定されず、ショッピングカート、転がるタイヤ、あらゆる種類の動物など、ほぼすべてのものが動的に変化する可能性があります。
動的グリッドマップと深層学習の組み合わせ
この論文では、動的オブジェクトの種類や形状を事前に想定せず、各グリッドセルに対して完全な速度ベクトル分布を推定できる「動的グリッドマップ」に着目しています。従来、動的グリッドマップからの動的オブジェクト検出は、DBSCANなどのクラスタリング技術を用いて行われてきました。しかし、これらの手法は、風で揺れる木や、静的な環境構造物の変化などから誤検出が発生しやすいという課題がありました。
そこで、本論文では、動的グリッドマップを鳥瞰画像として扱い、回転オブジェクト検出に優れた性能を発揮するRotation-equivariant Detector (ReDet) を用いることで、動的オブジェクトの検出を行います。これにより、グリッドに含まれる空間的なシーンコンテキストを考慮した、より高精度な検出が可能になります。
実験と結果
実世界の高速道路および都市部の運転シナリオから収集したデータを用いて、提案手法の評価を行いました。その結果、ReDetは従来のクラスタリング手法と比較して、様々な状況において優れた検出性能を発揮することが確認されました。特に、誤検出しやすいシーンにおいても、ReDetは高い精度で動的オブジェクトを検出することができました。
結論
本論文は、動的グリッドマップ上で深層学習を用いることで、従来のクラスタリング手法よりも高精度に、様々な種類の動的オブジェクトを検出できることを示しました。この手法は、自動運転システムの安全性向上に大きく貢献することが期待されます。
統計
手動でラベル付けされたデータセットは1450フレーム (学習用858フレーム、検証用287フレーム、テスト用305フレーム) 。
DBSCANを用いて自動ラベル付けされたデータセットは3964フレーム (学習用3295フレーム、検証用313フレーム、テスト用356フレーム) 。
動的オブジェクトを含まない夜間の走行データは1171フレーム (学習用603フレーム、検証用100フレーム、テスト用100フレーム) 。
ReDetの学習には、事前学習済みのDOTA v1.0ベースのモデルを使用し、12エポック学習させた。
ReDetのバックボーンにはReResNet50を使用し、SGDオプティマイザを用いて初期学習率0.00025で学習。
ReDetの学習率は、8エポックと11エポックで10分の1に減衰。
ReDetの学習は、バッチサイズ4、IoUしきい値0.5で20エポック実施。
動的グリッドマップの入力は、セル解像度0.2m×0.2mの500×500セル。
ReDetの推論速度は2.6fps。
RetinaNetの推論速度は5.5fps。
DBSCANの適合率は0.51、再現率は0.67。
ReDetの再現率0.67における適合率は0.926。
ReDetの適合率0.90、再現率0.89を達成するスコアスレッショルドは0.75。
引用
"Detectors trained on predefined object classes are incapable to perceive such generic dynamic objects – let alone to estimate their velocities or accelerations, which can lead to dangerous situations."
"In this paper, we similarly propose to replace the classic cell clustering by a deep learning-based object detection method operating on dynamic grids, which is optionally followed by a high-level object tracker."
"The grids are treated as multi-channel images and due to the networks’ capabilities to make use of context information in the grid, the number of false positives are strongly reduced."
"In contrast to fully end-to-end trained dynamic grid maps [17] or deep tracking approaches [18], a remarkably low amount of training data is necessary to achieve promising results across a large variety of standard and non-standard dynamic object scenarios."