本論文では、ビジョン言語モデル(VLM)を使ってロボットの故障検出と回復を自動化する手法を提案している。従来の手法は、特定の故障パターンに対する対応策を事前に設計する必要があり、柔軟性に欠けていた。一方、VLMは一般的な推論能力に優れているが、空間推論の限界から、ロボット制御やモーションレベルの故障回復に適用するのが難しかった。
本手法では、VLMの入力となる視覚プロンプトと言語プロンプトを最適化することで、VLMの空間推論能力を向上させている。具体的には、視覚プロンプトに重要な視覚要素を追加し、言語プロンプトでそれらの要素に注目するよう指示することで、視覚情報と言語情報の整合性を高めている。また、故障検出と回復の推論プロセスを分解することで、より正確な故障分析と回復計画の生成を実現している。
実験の結果、本手法はモーションレベルの位置修正において、事前学習済みのVLAモデルよりも65.78%高い精度を達成した。また、レゴ組み立てタスクにおける未知の故障に対しても、故障検出、故障分析、回復計画の生成において、従来手法よりも高い成功率を示した。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Hongyi Chen,... pada arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.03966.pdfPertanyaan yang Lebih Dalam