核心概念
本文提出了一種基於非揮發性記憶體計算 (NVCiM) 的邊緣大型語言模型 (LLM) 提示微調框架 (NVCiM-PT),通過利用 NVCiM 的優勢,有效地儲存和檢索針對特定資料域的最佳虛擬標記 (OVT),從而提高邊緣 LLM 的效能,並解決了傳統提示微調方法在資源受限環境下的局限性。
摘要
文獻資訊
Ruiyang Qin, Pengyu Ren, Zheyu Yan, Liu Liu, Dancheng Liu, Amir Nassereldine, Jinjun Xiong, Kai Ni, Sharon Hu, Yiyu Shi. NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs. arXiv preprint arXiv:2411.08244v1, 2024.
研究目標
本研究旨在解決邊緣大型語言模型 (LLM) 在資源受限環境下進行提示微調時所面臨的挑戰,特別是針對用戶領域轉移和資源效率低下的問題。
方法
- 提出一種基於非揮發性記憶體計算 (NVCiM) 的提示微調框架 (NVCiM-PT)。
- 開發一種資源節省的資料選擇方法,從用戶生成的資料中選擇最具代表性的樣本進行提示微調。
- 引入一種噪音感知訓練方法,使獲得的虛擬標記對 NVM 設備變化具有彈性。
- 設計一種新的檢索演算法,確保在各種 NVCiM 中檢索到與每個用戶輸入相對應的適當虛擬標記。
主要發現
- 與現有的噪音抑制方法和常用的最大內積搜索 (MIPS) 方法相比,NVCiM-PT 在各種 NVM 設備上均表現出更優越的效能。
- 實驗結果顯示,NVCiM-PT 可以顯著提高邊緣 LLM 的效能,最高可達 36.7%。
- 與使用 Jetson Orin CPU 相比,NVCiM-PT 的延遲最高可降低 120 倍,能耗最高可降低 60 倍。
主要結論
NVCiM-PT 為邊緣 LLM 的提示微調提供了一種有效且資源節省的解決方案,通過利用 NVCiM 的優勢,可以有效地儲存和檢索 OVT,從而提高模型在資源受限環境下的效能。
研究意義
本研究為邊緣 LLM 的發展和應用提供了新的思路,特別是在需要保護用戶隱私和確保模型可靠性的領域,例如醫療保健、人工智慧陪伴和個人助理等。
局限與未來研究方向
- 未來可以進一步研究如何根據不同的 NVM 設備特性優化 NVCiM-PT 框架。
- 可以探索更先進的噪音抑制技術,以進一步提高虛擬標記在 NVM 儲存和檢索過程中的魯棒性。
統計資料
與僅使用 Jetson Orin CPU 相比,NVCiM-PT 的延遲最高可提高 120 倍,能耗最高可降低 60 倍。
在各種 NVM 設備上,NVCiM-PT 的效能最高可提高 36.7%。
引述
"To the best of our knowledge, this is the first work employing NVCiM to improve the edge LLM PT performance."
"Our experiments on various datasets show that our proposed framework can improve the edge LLM performance on multiple NVCiM devices by up to 36.7%, along with up to 120× improvement of latency and up to 60× improvement of energy compared to using Jetson Orin CPU."