オブジェクト中心学習(OCL)における従来の離散表現は、特徴を全体として扱うため汎化能力が制限され、属性レベルの類似性と相違性を捉えられないため収束が遅いという課題がある。本論文では、この課題を解決するために、特徴を属性に分解して離散表現化する手法であるグループ化離散表現(GDR)を提案する。
本稿では、トップダウンのセマンティック情報をスロットアテンション機構に組み込むことで、複雑な視覚環境におけるオブジェクト中心学習(OCL)の性能を向上させる新しいフレームワークを提案する。
視覚シーンの包括的な理解には、オブジェクトのオクルージョンなどの複雑さがあるため、複数の視点からの観察が不可欠です。本稿では、情報利得を最大化する視点を選択する、アクティブな視点選択戦略に基づく新しいマルチビューポイントオブジェクト中心学習モデルであるAVSを提案します。
本稿では、ビデオ内のオブジェクト中心表現の時間的一貫性を向上させる手法CA-SAを提案する。CA-SAは、前のタイムステップの表現に基づいて現在のタイムステップの表現を予測する自己回帰ネットワークと、連続するフレーム間の特徴-スロットアテンションマップ間の一貫性損失という2つの要素から構成される。これにより、ビデオ予測やVQAなどのダウンストリームタスクにおいて、従来手法を上回る性能を達成した。
従来のオブジェクト中心学習モデルは小さなオブジェクトの検出に苦労していたが、本稿で提案するRHGNetは、逆階層理論に基づいたトップダウン経路を導入することで、この問題を克服し、より正確なオブジェクト表現を獲得できる。