Core Concepts
人間のような包括的な知覚能力を持つことで、モバイルロボットが任意のタスクを効果的に遂行できるようになる。
Abstract
本論文は、人間の知覚プロセスの概念をモバイルロボットに適用することで、包括的なシーンパーセプションを実現するHIPer-Modelを提案している。HIPer-Modelは、認識、知識表現、知識解釈の3つの主要な部分から構成される。
認識システムは、背景と前景を分離して、交換可能な物体検出器とSLAMを統合する。多層の知識ベースは階層的な構造でシーン情報を表現し、高レベルの制御のためのインターフェースを提供する。知識解釈手法は、時空間的なシーン分析と知覚学習を活用して、自己調整を行う。
単一環境でのアブレーション研究を通じて、各コンポーネントがフェッチ・アンド・キャリーのシナリオにおける全体的なパフォーマンスに与える影響を評価した。2つのシミュレーション環境と1つの実環境で実験を行い、HIPer-Modelの知覚性能と課題遂行能力を示した。
Stats
背景再構築の処理時間は平均0.157秒から0.202秒、遅延は平均0.147秒から0.53秒
背景再構築の精度は静的物体で98.4%から100%、セマンティクスで68.6%から74.1%
前景認識のオブジェクト検出時間は平均0.047秒から0.118秒、遅延は平均0.0774秒から0.43秒
前景認識の分類精度は正解率が90%以上、誤検出率は5%以下
人の動的割合は5.6%から26.8%、平均速度は0.101m/sから0.157m/s