最近のビジョン言語モデル(VLM)の進歩により、物理世界における推論が可能になり、特にロボティクス領域で重要性が高まっています。しかし、現在のVLMは一般的なオブジェクトの物理的概念(材料、壊れやすさなど)を理解する能力に制限があります。この制限を克服するために、39.6K人工アノテーションと417K自動物理コンセプトアノテーションから成るPHYSOBJECTSデータセットを提案しています。このデータセットを使用してVLMを微調整することで、物理オブジェクト概念の理解が向上し、ロボットプランニングパフォーマンスも改善されます。さらに、実際のロボットでの利用でもタスク成功率が向上します。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jensen Gao,B... lúc arxiv.org 03-01-2024
https://arxiv.org/pdf/2309.02561.pdfYêu cầu sâu hơn