Core Concepts
屋内シーンは通常、散在するオブジェクトとそれらの関係によって特徴付けられ、これは屋内シーン分類タスクを困難なコンピュータービジョンタスクにしている。深層学習ベースの手法の使用により分類タスクのパフォーマンスが大幅に向上したが、カテゴリ間の曖昧さや同一カテゴリ内の変動などの限界が性能の障害となっている。このような問題を克服するために、セマンティック情報を活用することが、屋内シーンのより完全で識別性の高い特徴表現を得るための有望な情報源であることが示されている。
Abstract
本論文では、オブジェクト検出から得られるセマンティック情報とセマンティックセグメンテーション技術から得られるセマンティック情報の両方を使用している。オブジェクト検出技術は2Dの位置情報を提供し、オブジェクト間の空間分布を得ることができる一方で、セマンティックセグメンテーション技術はピクセルレベルの情報を提供し、ピクセルレベルでのセグメンテーションカテゴリの空間分布と形状関連の特徴を得ることができる。
そこで、セマンティックセグメンテーションマスクを使用してHu-momentsベースのセグメンテーションカテゴリの形状特徴化を行う新しいアプローチ(Segmentation-based Hu-Moments Features: SHMFs)を提案している。さらに、深層学習ベースのグローバル特徴、オブジェクトベース特徴、セマンティックセグメンテーションベース特徴を活用する3つの主要なブランチネットワーク(GOS2F2App)を提案している。
GOS2F2Appは、SUN RGB-DデータセットとNYU Depth Dataset V2で評価され、両方のデータセットで最先端の結果を達成したことが示されており、提案アプローチの有効性を示している。
Stats
屋内シーンは通常、散在するオブジェクトとそれらの関係によって特徴付けられる。
屋内シーン分類タスクには、カテゴリ間の曖昧さと同一カテゴリ内の変動という2つの主要な問題がある。
セマンティック情報を活用することが、より完全で識別性の高い屋内シーンの特徴表現を得るための有望な情報源である。
オブジェクト検出技術は2Dの位置情報を提供し、オブジェクト間の空間分布を得ることができる。
セマンティックセグメンテーション技術はピクセルレベルの情報を提供し、ピクセルレベルでのセグメンテーションカテゴリの空間分布と形状関連の特徴を得ることができる。