핵심 개념
我们提出了一种自我监督的方法来发现可以适应和重组以解决各种机器人任务的操作概念。我们认为概念化一个物理过程的决定不应该依赖于我们如何命名它(语义),而是应该依赖于其表示中关于低级物理状态和状态变化的信息量的重要性。
초록
本文提出了一种自我监督的方法来发现机器人操作概念。该方法建立在两个关键概念之上:生成性信息量和判别性信息量。
生成性信息量:一个操作概念应该能够预测子轨迹的终态。例如,对于"抓取一个块"这个概念,我们可以预测当机器人抓住块时场景会是什么样子。
判别性信息量:一个操作概念应该能够判断当前状态是否处于实现该概念所描述的目标状态的过程中。例如,对于"将杯子放在水龙头下"这个概念,我们可以判断当前状态是否处于实现这一目标的过程中。
此外,作为一个判别性目标,一个操作概念应该能够指导后续的动作。如果一个动作与该概念的判别性得分(相容性)较高,那么就应该执行该动作来完成任务。
作者提出了一个基于VQ-VAE的架构,通过训练这些信息量指标来自动发现操作概念及其与物理状态的对应关系,而无需人工标注。实验结果表明,使用自动发现的操作概念可以训练出性能优于其他基线的操作策略,并且与使用人工标注概念的性能相当。
통계
我们提出了一种自我监督的方法来发现机器人操作概念,无需人工标注。
我们定义了两个关键概念:生成性信息量和判别性信息量,用于发现和表征操作概念。
我们设计了一个基于VQ-VAE的架构,通过优化这些信息量指标来自动发现操作概念及其与物理状态的对应关系。
实验结果表明,使用自动发现的操作概念可以训练出性能优于其他基线的操作策略,并且与使用人工标注概念的性能相当。
인용구
"我们认为概念化一个物理过程的决定不应该依赖于我们如何命名它(语义),而是应该依赖于其表示中关于低级物理状态和状态变化的信息量的重要性。"
"一个操作概念应该能够预测子轨迹的终态。"
"一个操作概念应该能够判断当前状态是否处于实现该概念所描述的目标状态的过程中。"
"作为一个判别性目标,一个操作概念应该能够指导后续的动作。"