本文提出了一種名為LANDeRMT的語言感知神經元檢測和路由框架,用於選擇性微調大型語言模型(LLMs)以提升其機器翻譯能力。
首先,作者提出了一種表示分析(RA)方法來檢測與語言對相關的層。然後,他們使用Taylor展開(TE)來評估每個神經元對機器翻譯任務的感知強度,並將神經元分為語言通用神經元和語言特定神經元。在微調過程中,只有語言通用神經元和當前語言對的語言特定神經元的參數會被更新,以緩解災難性遺忘和參數干擾問題。
此外,作者提出了一種基於感知的條件路由機制(CAR),動態調整語言通用和語言特定的容量,以進一步提高LLMs在機器翻譯任務上的適應性。
實驗結果表明,與各種強大的基線相比,提出的LANDeRMT方法在多個語言對上都取得了顯著的翻譯質量提升。此外,作者還進行了深入的分析,驗證了該方法在緩解災難性遺忘和參數干擾方面的有效性。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shaolin Zhu,... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19523.pdfYêu cầu sâu hơn