本論文では、ロボット操作タスクのためのDiffCloneと呼ばれる新しい手法を提案している。DiffCloneは、高品質な専門家データを活用し、モメンタムコントラスト(MoCo)によって事前学習された視覚エンコーダと、拡散ポリシーに基づく行動クローニングエージェントから構成される。
まず、データセットから最高報酬の軌跡を選択し、「専門家」データセットを作成する。次に、MoCoによって微調整されたResNet50を視覚エンコーダとして使用し、状態を抽出する。状態の正規化を行うことで、学習されるポリシーの安定性を高める。最後に、拡散ポリシーを用いた行動クローニングエージェントを実装する。拡散ポリシーは、複雑な行動分布を効果的にモデル化し、最適な行動を生成することができる。
実験の結果、DiffCloneは、シミュレーション環境において、既存の行動クローニングやオフラインRLの手法を大きく上回る性能を示した。一方で、実環境での評価では課題が残されており、今後の課題として、DDIM(Denoising Diffusion Implicit Models)の活用やKL正則化などによる堅牢性の向上が考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問