本文提出了一個基於模型的強化學習(MBRL)框架,用於動態優化大型語言模型(LLM)在用戶設備(UE)和邊緣計算資源之間的分割點,以提高在無線網絡條件下的推論效能和計算負載平衡。
首先,作者全面分析了不同分割點對主流開源LLM在不同信道條件下的推論性能的影響。結果表明,較早的模型分割可能會降低推論性能,而信道條件的變化也會顯著影響給定分割點的性能。
基於此,作者將LLM分割點的優化問題形式化為一個馬爾可夫決策過程(MDP),並採用近端策略優化(PPO)算法來動態調整分割點。為了提高學習效率,作者還引入了一個基於DNN的獎勵代理模型,有效減少了頻繁的LLM推論評估開銷。
大量仿真實驗表明,該MBRL框架能夠在不同無線信道條件下有效平衡推論性能和計算負載,為LLM在分散式部署環境中提供了一種可靠的解決方案。
翻譯成其他語言
從原文內容
arxiv.org
深入探究