最近のビジョン言語モデル(VLM)の進歩により、物理世界における推論が可能になり、特にロボティクス領域で重要性が高まっています。しかし、現在のVLMは一般的なオブジェクトの物理的概念(材料、壊れやすさなど)を理解する能力に制限があります。この制限を克服するために、39.6K人工アノテーションと417K自動物理コンセプトアノテーションから成るPHYSOBJECTSデータセットを提案しています。このデータセットを使用してVLMを微調整することで、物理オブジェクト概念の理解が向上し、ロボットプランニングパフォーマンスも改善されます。さらに、実際のロボットでの利用でもタスク成功率が向上します。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jensen Gao,B... pada arxiv.org 03-01-2024
https://arxiv.org/pdf/2309.02561.pdfPertanyaan yang Lebih Dalam