製造業和其他行業一樣,最近受到勞動力短缺的影響,自動化和機器人技術可以大大減少這個問題。強化學習 (RL) 提供了一種很有前景的解決方案,機器人可以通過與環境的交互和反饋來學習執行任務。然而,儘管強化學習在許多模擬環境中取得了成功,但我們仍然沒有看到許多強化學習機器人解決方案在現實世界中的部署。事實上,許多研究人員要么過度簡化了目標現實世界場景,要么甚至沒有在物理機器人中評估他們的模型。
眾所周知,直接在真實機器人上訓練強化學習策略可能成本高昂、耗時、勞動密集,甚至可能很危險,這就是為什麼嘗試利用模擬訓練是有意義的。同時,典型的強化學習策略所訓練的模擬環境與現實世界之間存在顯著差距。這導致部署期間的性能大幅下降,一些工作試圖通過領域隨機化和適應、知識蒸餾、元學習和模仿學習等技術來縮短這種差距。另一個方向是改進模擬器中的現實世界表示,例如 Meta Habitat 和 Isaac Lab。
本研究利用一個簡化的機器人系統來處理“真實”數據,而無需在製造環境中部署大型昂貴的機器人。目的是研究多代理多機台照管製造設置的挑戰性場景。在這種設置中,一組移動機械手在生產機器之間穿梭,以輸送原材料、拾取成品零件並將其放入指定的存儲區域。研究首先在專為多代理強化學習 (MARL) 研究而設計的模擬器 VMAS 中設計了一個多代理多機台照管場景。然後使用該場景訓練成熟的 MARL 模型:MAPPO,以獲得在模擬中運行良好的模型。之後,為了進一步研究硬件在環模型,研究人員選擇了從原始斯坦福 Zooids 改編而成的簡單定制桌面機器人。
在實驗設置中,研究人員設計了一個如圖 1 所示的真實世界桌面競技場,該競技場模擬了在模擬中設計的場景,其中三個 Zooids 散佈在中間,一個代表存儲區域的小型藍色架子位於中間下方,兩側的藍色盒子代表機器,黑色盒子代表機器的阻擋器。在這種設置中,模擬始終在地面站中運行,競技場中的機器人試圖通過模仿模擬來完成任務。競技場中的每個機器人都由模擬中的一個代理表示,並且該代理的位置被發送到競技場中的機器人以供其跟隨。儘管動力學方面存在差異(MAIS 中的全向代理,與差動運動 Zooids 以及更小尺寸的機器和存儲區域相比),但機器人能夠描繪出與模擬中相同的行為,前往機器獲取準備好的零件,然後前往存儲區交付它們。
這些實驗讓我們了解了一些部署挑戰,即機器人的車載計算能力、定位和通信。由於 Zooids 的計算能力較弱,因此所有操作都在中央地面站上運行。此外,Zooids 通過檢測投影儀從頂部投射的格雷碼圖案來定位自身,但對於實際部署而言,需要更強大的定位設置,例如結合車輪里程計、IMU 測量和 UWB 定位。此外,研究人員注意到,在嘗試通過基於 Arduino 的中央天線將 Zooids 的實際位置返回到地面站時,存在通信瓶頸,而通過機器人間的直接通信可以消除這種瓶頸,每個機器人都與其鄰居共享其位置。
總之,我們使用 Zooids 進行的實驗提供了對實際部署挑戰的初步了解,我們計劃使用更強大的機器人平台並利用我們改進的模型 AB-MAPPO(基於注意力的 MAPPO 編碼機制)來嘗試更逼真的設置。圖 2 描繪了 AB-MAPPO 與 MAPPO 相比的片段總回報,以及總交付零件數和總碰撞次數。值得一提的是,AB-MAPPO 不僅收集了更多獎勵,而且在零件交付和碰撞次數方面也表現更好。
翻譯成其他語言
從原文內容
arxiv.org
深入探究