核心概念
限られた数の模倣動画からロボットが複雑なタスクを学習することを目指し、視覚言語モデルを用いて細粒度動作を模倣学習する新しいパラダイム「VLMimic」を提案する。
摘要
VLMimic: 視覚言語モデルを用いた細粒度動作の模倣学習
本稿は、ロボット工学分野における模倣学習に関する研究論文である。
従来のロボットの模倣学習は、事前に定義された動作プリミティブに依存しており、複雑なタスクへの汎用性に課題があった。本研究では、視覚言語モデル(VLM)を用いることで、限られた数の模倣動画からロボットが複雑なタスクを学習することを目指す。
本稿では、新しいパラダイム「VLMimic」を提案する。VLMimicは、以下の3つの主要なモジュールから構成される。
人間-物体相互作用のグラウンディング: 入力された動画をセグメント化し、物体中心の動作を抽出する。これにより、VLMが処理しやすい形に情報を整理する。
階層的制約表現を用いたスキル学習: 抽出された動作から、意味的制約と幾何学的制約を階層的に表現することで、VLMが効率的にスキルを学習することを可能にする。
反復比較戦略を用いたスキルアダプター: 学習したスキルを、新しい環境やタスクに適応させるために、模倣動画との比較に基づいてスキルを反復的に更新する。