核心概念
本文提出了一種名為 Corki 的軟硬體協同設計框架,用於解決當前具身 AI 機器人控制中存在的延遲問題,通過預測未來軌跡、硬體加速和優化執行流程,顯著提升機器人控制的即時性和效率。
論文資訊
Huang, Y., Hao, Y., Yu, B., Yan, F., Yang, Y., Min, F., ... & Gan, Y. (2024). Software-Hardware Co-Design For Embodied AI Robots. arXiv preprint arXiv:2407.04292v4.
研究目標
本研究旨在解決當前具身 AI 機器人控制系統中存在的延遲問題,以實現更即時、高效的機器人控制。
研究方法
為了解決現有具身 AI 機器人控制系統中存在的延遲問題,本研究提出了一種名為 Corki 的軟硬體協同設計框架。Corki 主要包含三個方面的創新:
演算法層面: Corki 提出預測機器人未來軌跡,而非僅僅預測下一幀的動作,從而降低大型語言模型(LLM)的推理頻率,減少延遲和能耗。
硬體層面: Corki 設計了一個硬體加速器,將 LLM 預測的軌跡轉換為控制機器人運動的扭矩信號,實現即時控制。
系統層面: Corki 提出了一種新的執行流程,將新捕獲的圖像傳輸到伺服器的過程與機器人執行過程並行化,進一步降低端到端延遲。
主要發現
實驗結果表明,Corki 能夠顯著降低具身 AI 機器人控制系統的端到端延遲,最高可達 3.6 倍,同時成功率提升最高可達 17.3%。
主要結論
Corki 框架通過軟硬體協同設計,有效解決了當前具身 AI 機器人控制系統中存在的延遲問題,為實現更即時、高效的機器人控制提供了新的解決方案。
研究意義
本研究對於推動具身 AI 機器人技術的發展具有重要意義,有助於將具身 AI 機器人應用於更多需要即時控制的場景,例如家庭服務、工業製造等。
研究限制與未來方向
本研究主要集中在機器人手臂的控制上,未來可以進一步探索 Corki 框架在其他類型機器人,例如移動機器人、人形機器人等,上的應用。此外,還可以進一步優化 Corki 的演算法和硬體設計,以進一步提升其性能。
統計資料
使用一個包含 30 億個參數的相對較小的 LLM 和一個高端 GPU,具身 AI 系統的端到端幀延遲可以達到 249.4 毫秒。
在所有三個階段中,LLM 推理佔執行時間的 76.9%,機器人控制佔 4.1%,數據通信佔 19.0%。
LLM 推理仍然佔據主導地位,佔總能量的 98.0%,而機器人控制和數據通信僅佔 2.0%。
在真實的機器人系統中,控制通常具有更高的速率,對應的控制延遲可以增加到總延遲的 13.9%。
超過 51% 的矩陣更新可以被避免,而不會損失任何控制精度。
平均而言,Corki 將誤差降低了 25.0%。