Core Concepts
HOIST-Formerは、手持ちオブジェクトの識別、セグメンテーション、追跡を効果的に行うことができる新しいトランスフォーマーベースのアーキテクチャである。手と物体の相互作用に基づいて、手持ちオブジェクトの識別とセグメンテーションを行う。
Abstract
本論文では、手持ちオブジェクトの識別、セグメンテーション、追跡を行う新しいトランスフォーマーベースのアーキテクチャ「HOIST-Former」を提案している。この課題は、重度の遮蔽、急速な動き、手持ちオブジェクトの一時的な性質などの課題があるため非常に困難である。
HOIST-Formerは、手と物体の特徴を相互に引き出すことで、手持ちオブジェクトの識別とセグメンテーションを行う。具体的には、低解像度の時空間特徴を抽出するバックボーンネットワーク、ピクセルデコーダによる高解像度化、そして手と物体のクエリを反復的に更新するハンド-オブジェクトトランスフォーマーデコーダから構成される。
さらに、手と物体の接触領域に着目したコンタクトロスを導入することで、HOIST-Formerの性能を向上させている。
また、本論文では、手持ちオブジェクトの識別、セグメンテーション、追跡のための大規模なデータセット「HOIST」を提供している。HOIST datasetは4,228本の動画と約85,000フレームから構成され、手持ちオブジェクトのバウンディングボックス、セグメンテーションマスク、トラッキングIDが注釈されている。
実験の結果、HOIST-Formerは、HOIST datasetおよび他の2つのデータセットにおいて、手持ちオブジェクトのセグメンテーションと追跡の性能が優れていることが示された。
Stats
手と物体の接触領域は、手持ちオブジェクトの正確な位置特定に重要な役割を果たす。
HOIST datasetは4,228本の動画と約85,000フレームから構成されている。
Quotes
"手持ちオブジェクトの識別、セグメンテーション、追跡は、人間の環境との相互作用を理解するために非常に重要である。"
"HOIST-Formerは、手と物体の相互作用に基づいて、手持ちオブジェクトの識別とセグメンテーションを行う。"