核心概念
マルチモーダルVAEを用いて、画像、言語命令、ロボット動作軌跡の統合的な表現を学習し、未知の状況でも適切な動作を生成することができる。
要約
本研究では、ロボット操作タスクにおいて、画像、言語命令、ロボット動作軌跡の3つのモダリティを統合的に学習するためのマルチモーダルVAEモデルを提案している。
まず、VAEのエンコーダとデコーダのアーキテクチャを調整し、3つのモダリティを統合的に処理できるようにした。さらに、再構成損失関数にσ-VAEを採用することで、モデルの性能を最大55%改善できることを示した。
次に、34種類の合成データセットを用いて、モデルの性能を評価した。シーンの複雑さ(物体の数や位置のばらつき)や、タスクの長さの影響を分析した結果、MVAEモデルが最も頑健な性能を示すことがわかった。一方で、複雑なタスクや、物体の位置のばらつきが大きい場合は、モデルの性能が低下することも明らかになった。
今後の課題として、物体認識の精度向上や、長期的なタスクの実行などが挙げられる。マルチモーダルVAEの適用範囲をさらに広げるためには、これらの課題に取り組む必要がある。
統計
物体の位置のばらつきが大きい場合、ロボットの動作精度が最大で19cmまで低下した。
複雑なタスク(物体の挿入と引き出しの操作)では、MVAEモデルの精度が16%、MMVAEモデルの精度が1%まで低下した。