人間とロボットの自然なインタラクションにおいて、ロボットに搭載されたカメラのみを用いて人間の視線を推定する学習ベースのアーキテクチャを提案する。
ディープラーニングベースの視線方向回帰手法において、従来の論文では評価方法やデータセットの差異により、公正な性能比較が困難であったことを指摘し、統一的な評価環境での再評価を実施した結果、最新の手法が必ずしも従来手法を上回らないことが明らかになった。
本論文では、従来のCNNベースの手法を超える精度で、エゴセントリックなビデオフレームから視線を推定する、Transformerベースの新しい深層学習モデルを提案しています。
本研究では、大規模な言語-画像事前学習モデルCLIPを活用し、視線推定の精度を大幅に向上させる新しい手法GazeCLIPを提案する。
運転者の目線は、知能を持った自動車にとって重要な情報源であり、本研究ではその包括的な解決策を提供する。