Core Concepts
過去の協調行動を効率的に検索・活用することで、少数の目標タスクデモンストレーションからも高い成功率で協調的プッシュ操作を学習できる。
Abstract
本研究では、多エージェントの協調行動を表現する特徴ベクトルを学習し、それを用いて過去の協調行動を効率的に検索・活用する手法を提案する。
まず、過去の多様な協調行動デモンストレーションから、エージェント間の時空間的な相互作用を捉えた特徴ベクトルを学習する。この特徴ベクトルは、オブジェクトの形状や操作方向の違いを反映しており、類似した協調行動を特定することができる。
次に、少数の目標タスクデモンストレーションを用いて、過去の関連する協調行動を検索し、それらを活用してポリシーを学習する。実験の結果、提案手法は少数のデモンストレーションからも高い成功率で協調的プッシュ操作を学習できることを示した。さらに、実機ロボットでの実験でも有効性を確認した。
Stats
物体の形状(棒状/ブロック状)や操作の難易度(簡単/難しい)によって、ロボットの協調行動が大きく異なる。
ロボットの台数が増えるほど、提案手法と従来手法の性能差が大きくなる。
Quotes
"過去の協調行動を効率的に検索・活用することで、少数の目標タスクデモンストレーションからも高い成功率で協調的プッシュ操作を学習できる。"
"提案手法は少数のデモンストレーションからも高い成功率で協調的プッシュ操作を学習できることを示した。"