核心概念
本稿では、把持環境の変化に対してロバストな協調的把持・運搬システムを、三値力表現を用いたマルチエージェント強化学習(MARL)によって実現する。
要約
複数エージェント強化学習と三値表現を用いた協調的な把持と運搬
本論文は、複数ロボットによる協調的な把持と運搬タスクを、力センシングフィードバックを用いたマルチエージェント強化学習(MARL)によって実現する手法を提案する。従来の力センシングに基づく手法は、把持力、把持姿勢、対象物のサイズや形状などの把持環境の変化に影響を受けやすいという課題があった。本研究では、把持環境の変化に対して一貫した表現を維持できる三値力表現を用いることで、この課題を解決する。
三値力表現
三値力表現は、力センサの生信号を、-1、0、1の離散値に変換することで、対象物の動きを表現する。具体的には、連続する2つの時点間のデルタ力に対して、正の場合は1、負の場合は-1、変化がない場合は0を割り当てる。
非対称アクタークリティック
三値力表現は方向情報のみを捉え、大きさの情報は含まれないため、ロボット間の協調行動が困難になる可能性がある。この問題に対処するため、本研究では非対称アクタークリティックアーキテクチャを採用する。アクターは三値力表現のみを使用する一方、クリティックは三値力表現とデルタ力の両方を使用することで、部分観測問題を軽減する。
学習アルゴリズム
方策の学習には、Multi-Agent Proximal Policy Optimization (MAPPO) アルゴリズムを採用する。