核心概念
本論文介紹了一個基於知名 MOBA 遊戲王者榮耀的全新離線強化學習基準 Hokoff,旨在解決現有離線強化學習數據集缺乏實際應用性的問題,並為離線強化學習和離線多智能體強化學習提供一個更貼近真實世界場景的評估平台。
摘要
論文概述
本論文介紹了一個基於知名多人線上戰鬥競技場(MOBA)遊戲王者榮耀的全新離線強化學習基準 Hokoff。王者榮耀擁有複雜的遊戲機制和龐大的玩家群體,其複雜程度遠超現有的離線強化學習基準測試環境,為模擬真實世界場景提供了巨大潛力。
Hokoff 的主要貢獻
- 基於真實遊戲的數據集: Hokoff 的數據集來自於王者榮耀,這是一款擁有超過一億活躍玩家的 MOBA 遊戲,其複雜的遊戲機制和策略性決策過程更貼近真實世界的應用場景。
- 開源且易於使用的框架: Hokoff 提供了一個開源的、易於使用的框架,該框架包含了離線強化學習的完整流程,包括數據採集、訓練和評估,並提供了一些實用的工具,方便研究人員使用。
- 多樣化的數據集: Hokoff 發布了一系列豐富多樣的數據集,這些數據集是使用一系列具有不同設計因素的預訓練模型生成的,涵蓋了離線強化學習和離線多智能體強化學習。
- 基準測試和新算法: 基於 Hokoff 框架,作者復現了多種離線強化學習和離線多智能體強化學習算法,並提出了一種專為王者榮耀遊戲中固有的分層動作空間設計的全新基準算法 QMIX+CQL。通過在 Hokoff 數據集上對這些基準進行全面驗證和比較,結果表明,現有的離線強化學習方法在處理複雜任務、泛化能力和多任務學習方面仍存在不足。
Hokoff 的設計理念
為了提高 Hokoff 數據集的實用性,作者在設計數據集時考慮了以下幾個與王者榮耀和其他相關場景的實際應用相一致的設計因素:
- 多難度: Hokoff 提供了多個難度級別的數據集,以模擬不同玩家水平的遊戲環境。
- 多任務: 王者榮耀遊戲中擁有多種英雄角色和技能組合,這使得 Hokoff 可以作為一個理想的平台來評估模型在不同任務之間的泛化能力。
- 泛化性: Hokoff 數據集設計考慮了英雄泛化、對手泛化和等級泛化等多個方面,以評估模型在不同遊戲環境下的泛化能力。
- 異構隊友: Hokoff 還提供了一些數據集,用於研究在多智能體強化學習中,當隊友能力存在差異時所面臨的挑戰。
- 子任務: Hokoff 將王者榮耀遊戲分解成多個子任務,例如摧毀砲塔和獲取金幣,以評估算法在特定遊戲目標下的性能。
Hokoff 的意義
Hokoff 的提出為離線強化學習和離線多智能體強化學習的研究提供了一個更具挑戰性和實用性的基準測試平台,有助於推動相關領域的發展。
統計資料
王者榮耀每日活躍玩家超過一億。
Hokoff 數據集包含 1000 條軌跡數據。
HoK1v1 遊戲模式中,英雄池包含 5 個英雄。
HoK3v3 遊戲模式中,英雄池包含 6 個英雄,每個角色分配 2 個英雄。
引述
"The advancement of Offline Reinforcement Learning (RL) and Offline Multi-Agent Reinforcement Learning (MARL) critically depends on the availability of high-quality, pre-collected offline datasets that represent real-world complexities and practical applications."
"However, existing datasets often fall short in their simplicity and lack of realism."
"To address this gap, we propose Hokoff, a comprehensive set of pre-collected datasets that covers both offline RL and offline MARL, accompanied by a robust framework, to facilitate further research."