Core Concepts
言語モーションを活用したアクション階層の構築は、多様なマルチタスクデータセットにおいてロボット学習の性能を向上させる。
Abstract
Google DeepMindの研究チームが開発したRT-Hは、高レベルのタスクと低レベルのアクション間に言語モーションを介在させることで、共有されたタスク構造を学習し、マルチタスクデータセットを効果的に活用する。RT-Hは言語モーション補正に対して柔軟であり、新しい環境やオブジェクトにも適応可能であることが示されている。言語モーション補正から学ぶことで、RT-Hはテレオペレート補正よりもサンプル効率的に改善される。また、RT-Hは新しいシーンやオブジェクトへの汎化能力が高く、未知のタスクに対しても少ない修正で成功する可能性がある。
Stats
RT-HはRT-2よりも平均15%優れたパフォーマンスを示す。
RT-HはDiverse+Kitchenデータセットで8つの難しい評価タスクのうち6つで優れた結果を出す。
RT-Hは新しい環境でも安定した結果を示し、特に難易度の高いタスクでは大きな差が見られる。
RT-Hは未知のオブジェクトでもRT-2よりも優れた成績を収める。
言語モーション補正から学ぶことで、RT-Hの成功率が40%から63%まで向上する。
Quotes
"Language provides a way to break down complex concepts into digestible pieces."
"Creating such an action hierarchy leads to several benefits, enabling much better data sharing between different tasks at the level of language motions."
"Even when RT-H is no longer able to generalize its language motion prediction, we see that language motion corrections often do generalize."