Core Concepts
本研究では、2台のカメラを用いて運転者の注視点を推定する新しい手法を提案する。提案手法は、運転者の顔画像と走行シーン画像を同時に分析し、運転者の注視点をシーン上の2次元位置として推定する。
Abstract
本研究の目的は、運転者の顔と走行シーンを同時に分析することで、運転者の注視点を推定する経済的なデバイスを開発することです。
まず、この課題に適した大規模なデータセットを収集しました。このデータセットには、11人の運転者による19の走行セッションが含まれ、運転者の顔、走行シーン、注視点の同期データが含まれています。
次に、提案手法であるDrivers' Points-of-Gaze Estimation Network (DPEN)を開発しました。DPENは、顔画像と走行シーン画像を入力とし、運転者の注視点を2次元位置として出力します。DPENには、カメラ校正モジュールと注視点回帰モジュールの2つの主要コンポーネントがあります。カメラ校正モジュールは、運転者とカメラシステムの空間的な関係を表すパラメータを推定し、注視点回帰モジュールはこれらのパラメータを利用して注視点を推定します。
実験の結果、提案手法DPENは、既存手法と比べて大幅に高い精度を達成しました。平均推定誤差は29.69ピクセルと小さく、運転者の注視点を正確に推定できることが示されました。
Stats
運転者の注視点は、主に道路、車両、歩行者などの交通物体に集中している。
一方で、空、建物、植生などの背景物体の注視割合は低い。