本論文では、四足ロボットの自律的な行動を実現するために、視覚情報と言語指示を統合するという新しいパラダイム「QUAR-VLA」を提案している。従来の四足ロボットの学習アプローチは、言語対話と視覚的自律知覚を別々に扱っていたが、これでは自然な自律推論、意思決定、行動実行を達成するのが難しい。
QUAR-VLAでは、視覚情報と指示を統合して実行可能なアクションを生成することで、知覚、計画、意思決定を融合させ、ロボットの全体的な知能を向上させる。この枠組みの中で、細かな指示と視覚情報を正確に整合させることが重要な課題となる。
そのため、本研究では、視覚情報と指示を入力として受け取り、実世界のロボットのための実行可能なアクションを生成するQUART(QUAdruped Robotic Transformer)モデルを提案する。また、QUARTモデルの学習に使用する大規模マルチタスクデータセットQUARDも開発した。
広範な評価の結果、提案手法は優れたロボット政策を実現し、QUARTがさまざまな一般化能力を得られることが示された。
To Another Language
from source content
arxiv.org
Дополнительные вопросы