本文提出了一种名为MetaVIM的分散式强化学习方法,用于解决交通信号灯控制问题。
首先,作者将交通信号灯控制建模为一个元学习问题,其中每个交叉口对应一个任务,并引入了一个可学习的潜在变量来表示任务特定的信息,从而使得学习到的策略可以在不同任务之间共享。
其次,作者设计了一种内在奖励机制,鼓励每个智能体的预测奖励和观察转移只依赖于自身的历史,而不受邻居智能体的影响。这种设计可以提高政策学习的稳定性,并使得学习到的策略更容易迁移到新的场景。
实验结果表明,MetaVIM在多个公开数据集上都取得了优于现有方法的性能,并且在迁移实验中也展现出了出色的适应性。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Liwen Zhu,Pe... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2101.00746.pdfYêu cầu sâu hơn