核心概念
自由形状のロボットを設計するためのポリシーグラディエント手法を紹介します。
要約
動物の進化に触発され、3D形態の最適化が可能な強化学習方法が提案されました。従来のアルゴリズムとは異なり、この手法は内部および外部構造を持つ自由形状ロボットを設計することができます。数千の原子要素であるボクセルを使用してマクロ構造を作成し、最小限の仮定で同時に最適化します。これまでのアプローチとは異なり、この手法はランダム変異だけではなく、好ましい結果にバイアスをかけることができます。さらに、物理的なマシンへの移行も議論されています。
統計
ポリシーグラディエント手法による自由形状ロボット設計が可能です。
3Dグリッド上で生成された体積や表面積などが評価されました。
訓練中に得られた報酬やパフォーマンスメトリクスが示されています。
ハイパーパラメータや学習率なども記載されています。
引用
"Evolutionary robotics relies entirely on random phylogenetic “actions” (mutations) to modify the robot’s design, without any bias toward favorable outcomes."
"Reinforcement learning algorithm has been shown to be capable of freeform robot design."
"The policy learned to produce larger, more symmetrical bodies with less passive tissue with higher complexity as measured by the number of substructures and compression score."