核心概念
VLMをPHYSOBJECTSで微調整することで、物理的推論能力が向上し、ロボットプランニングのパフォーマンスが改善される。
摘要
最近のビジョン言語モデル(VLM)の進歩により、物理世界における推論が可能になり、特にロボティクス領域で重要性が高まっています。しかし、現在のVLMは一般的なオブジェクトの物理的概念(材料、壊れやすさなど)を理解する能力に制限があります。この制限を克服するために、39.6K人工アノテーションと417K自動物理コンセプトアノテーションから成るPHYSOBJECTSデータセットを提案しています。このデータセットを使用してVLMを微調整することで、物理オブジェクト概念の理解が向上し、ロボットプランニングパフォーマンスも改善されます。さらに、実際のロボットでの利用でもタスク成功率が向上します。
統計資料
PHYSOBJECTSは39.6K人工アノテーションと417K自動物理コンセプトアノテーションから成る。
PG-InstructBLIPはInstructBLIPよりもすべての概念で優れたテスト精度を達成した。
PG-InstructBLIPはInstructBLIPよりも保持された概念でも11.9%改善された。
引述
"We propose PHYSOBJECTS, an object-centric dataset of 39.6K crowd-sourced and 417K automated physical concept annotations of common household objects."
"Our main contributions are PHYSOBJECTS, a dataset of 39.6K crowd-sourced and 417K automated physical concept annotations of real household objects."
"PG-InstructBLIP outperforms InstructBLIP on all concepts, with the largest improvement on contents."