核心概念
本文探討了強化學習在量子井字遊戲中的應用,發現結合測量矩陣和歷史糾纏記錄的強化學習模型在具有複雜量子規則的遊戲版本中表現最佳,證明了強化學習在解決量子遊戲中的潛力。
本研究論文探討了強化學習在量子井字遊戲中的應用。量子井字遊戲是經典井字遊戲的變體,它引入了量子力學的概念,例如疊加和糾纏,使得遊戲更具策略性和挑戰性。
作者使用了兩種版本的量子井字遊戲,一種限制了糾纏移動,另一種則允許更自由的糾纏。
他們採用了近端策略優化(PPO)算法來訓練強化學習模型。
模型的輸入包括測量矩陣(表示每個格子處於空、X 或 O 狀態的概率)和歷史糾纏記錄(記錄遊戲過程中發生的糾纏移動)。