AdaZeta 框架透過結合快速張量化適配器和自適應查詢排程,顯著提高了零階微調大型語言模型的性能和收斂性,有效解決了傳統方法的記憶體效率和散度問題。
利用包含幽默、悖論和非常規思維問題的數據集(如 Ruozhiba)對大型語言模型進行微調,僅能稍微改善模型在處理多學科任務時的性能,且效果因任務而異。
VersaTune 透過根據預先訓練模型的知識分佈動態調整微調數據集的領域比例,從而有效提升大型語言模型在多個領域的性能。
雖然稀疏升級可以透過將密集模型轉換為混合專家模型 (MoE) 來提高模型質量,但它會導致顯著的推理成本,降低大型模型在高需求推理設定中的效率,突顯了模型質量和推理效率之間的權衡。
本論文旨在透過提示高效微調技術,減少 GPT-2 模型在質譜分析領域的幻覺現象,並提高其答案的可重複性。
現今商業微調 API 在將新知識或更新後的知識注入大型語言模型方面表現不佳,難以滿足可靠知識注入的需求。
DELIFT 透過基於效用核心的子模優化方法,在不損害效能的情況下,有效減少大型語言模型微調所需的數據量和計算資源,提升微調效率。
大型語言模型的低秩適應方法(如 LoRA)雖然有效,但對超參數選擇很敏感。本文提出了一種名為 MonteCLoRA 的新方法,通過貝葉斯重新參數化和蒙特卡洛估計來解決這個問題,從而實現更穩定和高效的微調。
透過基於大學課程論壇問答數據的監督式微調,可以提升大型語言模型在計算機教育中的教學效果,使其更符合建構主義等教育原則。
QuanTA 是一種受量子電路啟發的新型參數高效微調方法,能夠在不增加推理成本的情況下,對大型語言模型進行高效的高秩微調,克服了低秩調適方法的局限性,並在多項任務中展現出優於傳統方法的效能。