Core Concepts
本論文は、視覚的入力を抽象化した概念表現、記号推論、および視覚的因果遷移モデリングに基づく解釈可能で一般化可能な視覚的計画フレームワークを提案する。
Abstract
本論文は、視覚的計画タスクを解決するための新しいフレームワークを提案している。主な特徴は以下の通りである:
概念学習モジュール(SCL)を提案し、視覚的入力を分離された概念表現に抽象化する。これにより、因果関係の理解と一般化が容易になる。
概念トークンを記号に抽象化し、マルコフ決定過程に基づく記号推論を行うことで、効率的な計画経路を見つける。
視覚的因果遷移モデル(ViCT)を提案し、概念表現と行動の因果関係をモデル化することで、中間状態の生成を可能にする。
大規模な視覚的計画データセット(CCTP)を収集し、提案手法の有効性を検証した。実験結果から、提案手法が視覚的計画タスクと一般化性能において優れていることが示された。
提案手法は、解釈可能性と一般化性に優れ、ロボットの日常タスク遂行に役立つことが期待される。
Stats
視覚的計画タスクの成功率は、レベル1で97.9%、レベル2で99.4%、レベル3で86.5%、レベル4で55.1%である。
視覚的計画の効率性(ASE)は、レベル1で0.971、レベル2で0.981、レベル3で0.966、レベル4で0.978である。
最終状態との距離(FSD)は、レベル1で0.025、レベル2で0.013、レベル3で0.037、レベル4で0.003である。