本文提出了一種稱為共享信息池(SPI)的框架,用於在多代理人強化學習中實現更高效的訓練,特別是在推箱問題中。SPI通過在代理人之間提供共享的行動參考框架,促進了協調並減少了相互作用中產生的低效動作,從而加快了學習速度。
本文提出了一種名為「互惠者」的新型強化學習代理人,它能夠在多代理人環境中促進合作,即使其他代理人是純粹自利的。
本文提出了一種名為 COALA-PG 的新型學習感知強化學習演算法,該演算法能讓代理人在多代理人環境中學習並展現出合作行為,特別是在需要長期行動協調的複雜任務中。
等變圖神經網路 (EGNN) 可以透過利用多代理人環境中的對稱性來顯著提升樣本效率和泛化能力,而探索增強型等變圖神經網路 (E2GN2) 則透過減輕 EGNN 中的早期探索偏差,進一步提升了效能。