Core Concepts
現代のコンピュータビジョンシステムが物理的に根付いた空間関係を認識する能力を研究し、新しいアプローチを提案しています。
Abstract
人間が世界を理解し、相互作用するためには、物体間の空間関係が重要です。この論文では、既存のアプローチがこの基準データセットで不十分であることを示し、新しいTransformerベースのアプローチ「RelatiViT」がすべての既存アプローチよりも優れていることを実証しています。これは、野生環境で視覚情報を活用して性能向上させる初めての方法です。
Stats
20454個のトレーニングデータと2138個の検証データからなるRel3Dデータセット。
SpatialSense+データセットには5346個のトレーニングデータと808個の検証データが含まれています。
Quotes
"Detecting such semantic relationships does not suffice to inform a robot aiming to pick up the saucer mentioned in the opening paragraph."
"RelatiViT significantly outperforms all the existing methods and is the first to convincingly use visual information to improve performance on this task beyond just relying on the 2D spatial coordinates of the objects."