多様なシーンとオブジェクトを含む大規模なシーンデータセット「DIVSCENE」と、LVLMを用いたEnd-to-Endのオブジェクトナビゲーションエージェント「NATVLM」を提案し、その有効性を検証した。
本稿では、従来の重心ボロノイ分割(CVT)を応用し、障害物の存在する環境下で超大規模ロボットシステム(VLSR)の効率的な経路計画を実現する新しいSwarmCVTアルゴリズムを提案する。
人間のデモンストレーションから複雑な両手による器用な操作タスクを効率的かつスケーラブルに学習するための新しいフレームワークであるBiDexHDが提案されている。
高次正則化法は、ティホノフ正則化法の過剰平滑化問題を解決し、不良条件問題に対して安定した数値解を提供する。
大規模言語モデルは、膨大な量の人間生成テキストデータを学習しているため、人間の行動をゼロショットで模倣できる可能性がある。本研究では、大規模言語モデルを人間モデルとして活用し、ヒューマン・ロボット相互作用のシナリオでの有効性を示す。
単一モーダルデータを使用してロボットが多様モーダルタスク仕様を理解できるようにする。
WiFi CSIデータを利用して、移動ロボットの相対的な方位を推定するためのオープンソースシミュレーションフレームワークを提案する。
ビジョン言語ロボット操作の一般化能力を評価するための新しいベンチマーク「GemBench」を導入し、LLMとVLMを活用して3D-LOTUS++という一般化能力の高いロボット操作ポリシーを提案した。
CANVASは、ロボットが人間の抽象的な指示を理解し、常識に基づいて具体的な行動を取ることを可能にする。
汎用的なロボット操作ポリシーを新しいドメインに適応させるための効果的なチューニング戦略を見出すことが重要である。