本論文介紹了一種名為 AT-MoE 的新型架構,旨在解決傳統混合專家模型 (MoE) 在處理複雜任務時所面臨的局限性,特別是在需要專業知識和可解釋性的情況下。
大型語言模型 (LLM) 在各個領域都取得了顯著的進展,但它們在特定領域,如需要高度推理能力的編碼和數學,以及需要專業領域知識的醫學領域,仍然面臨著挑戰。MoE 架構通過結合多個模型的專業知識,為應對這些挑戰提供了一個有希望的解決方案。然而,現有的 MoE 模型在特定任務學習和可解釋性方面存在不足,尤其是在醫學等需要高精度的領域。
AT-MoE 的核心在於其動態權重分配機制。這種多模組融合方法增強了系統更有效地處理複雜和多樣化挑戰的能力。與缺乏任務級訓練的傳統 MoE 不同,AT-MoE 首先對不同任務場景的專家網路進行訓練,確保每個專家網路都具有鮮明的任務領域屬性。為了保證模型訓練和推理的效率,採用了參數高效微調 (PEFT) 方法來訓練每個專家子網路,例如 LoRA。
針對複雜任務場景,AT-MoE 採用了自適應分組路由策略。根據不同的任務類型,首先對專家模型進行分組權重分配,然後在每個組內進行權重分配。這種分組路由策略確保了針對特定任務場景的專家權重的合理分配,從而提供最佳的綜合答案。
AT-MoE 架構包括兩個主要的訓練矩陣:
此外,AT-MoE 還使用所有任務的合併訓練數據集來訓練一個代表通用專家的預合併 LoRA 模組。
AT-MoE 架構通過採用自適應分組路由模組,為基於複雜任務指令的高效模組融合提供了新的思路,為任務解析提供了最佳響應。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問