核心概念
QuanTA 是一種受量子電路啟發的新型參數高效微調方法,能夠在不增加推理成本的情況下,對大型語言模型進行高效的高秩微調,克服了低秩調適方法的局限性,並在多項任務中展現出優於傳統方法的效能。
研究論文摘要
書目資訊
Chen, Z., Dangovski, R., Loh, C., Dugan, O., Luo, D., & Soljačić, M. (2024). QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在解決大型語言模型 (LLM) 微調過程中,全參數微調計算成本過高的問題,並提出QuanTA,一種基於量子資訊張量調適的高效高秩微調方法。
方法
QuanTA 的靈感來自量子電路,將參數更新參數化為類似於量子電路的張量操作。通過將隱藏向量視為具有多個「量子位元」的量子態,並利用類似於量子閘的張量作用於特定軸,QuanTA 能夠實現高效的高秩調適。
主要發現
實驗結果顯示,QuanTA 在多項推理任務中,包括常識推理和算術推理,均優於傳統的微調方法和其他的參數高效微調方法。
主要結論
QuanTA 提供了一種可擴展且高效的 LLM 微調解決方案,利用量子資訊技術,在顯著減少可訓練參數數量的同時,實現了與全參數微調相當甚至更優的效能。
意義
本研究突出了量子資訊技術在增強 LLM 適應性和效率方面的潛力,為自然語言處理領域帶來了新的思路和方法。
局限性和未來研究方向
QuanTA 目前需要依次將張量應用於隱藏向量,這可能導致在張量過小時 GPU 利用率不足。未來可以開發更有效的實現方式,以充分利用 GPU 資源。此外,QuanTA 中的超參數,例如應用於相同軸的張量數量,尚未進行優化。選擇最佳的張量集可以進一步提高 QuanTA 的效能。
統計資料
將 LoRA 的秩從 64 增加到 128 後,其在 RTE 資料集上的效能保持不變,而在 DROP 資料集上的效能有所提高。
QuanTA 在使用 LLaMA2-7B 模型的 DROP 資料集上,僅使用一小部分參數(0.041%)就達到了與全參數微調相當的效能。
在使用 LLaMA2-70B 模型的常識推理任務中,QuanTA 的效能在大多數基準測試中都優於 DoRA 方法,並且使用的參數不到 DoRA 方法的十分之一。
在算術推理任務中,QuanTA 的效能明顯優於 LoRA,甚至在參數數量較少的情況下,其效能也優於全參數微調。