Core Concepts
エゴセントリックビデオから、視線内外の物体の3D位置を継続的に推定し、追跡する。
Abstract
本論文では、エゴセントリックビデオから物体の3D位置を推定し、視線内外の物体を継続的に追跡する「視線外の物体も忘れない」(OSNOM)タスクを提案する。
まず、ビデオから3D空間の再構成と各フレームのカメラ位置を推定し、2D物体検出結果を3D空間上に投影する。次に、外観と位置情報を用いて物体の追跡を行う。追跡された物体は視線外でも位置を記憶し続ける。
100本のEPIC-KITCHENSビデオで評価した結果、1分以内では64%、10分以内では37%の物体位置を正しく推定できた。視線外の物体位置を維持することが重要であり、従来手法よりも大幅に高い精度を達成した。
さらに、物体の可視性(視線内/遮蔽/視線外)や位置(届く範囲内/外)に関する情報も出力できる。これにより、ユーザの空間認知を模倣し、物体の位置を把握できる。
Stats
評価対象の100本のビデオ平均では、物体が視線外にある時間が85%に及ぶ。
1分後の物体位置推定精度は64%、5分後は48%、10分後は37%。
Quotes
"人は自分の周囲の環境について、そこにある物体の位置を記憶している。たとえ物体が視線外にあっても、その位置を知り続けている。"
"本研究では、このような空間認知能力をコンピュータビジョンで実現することを目指す。"