本文提出了一個工具包,用於以低成本的方式從已訓練的模型創建專家組合(MOE)。該工具包可用於從模型或適配器創建組合。作者進行了廣泛的測試,並提供了關於使用該工具包定義最終MOE架構的指導。
主要內容包括:
介紹MOE模型的優點,如性能優越、參數激活較少、推理響應時間更快等。
指出現有MOE模型的"專家"並非真正的專家,而是在訓練過程中同時訓練的。作者提出以低成本的方式從已訓練的模型創建MOE,通過選擇代表不同領域專家的模型來實現真正的專家組合。
提出三種創建MOE的方法:無閘門MOE、帶噪聲的MOE,以及可選擇訓練閘門或閘門與嵌入層的方法。這些方法靈活性強,可以在不同情況下選擇最佳方案。
進行了大量實驗,驗證了所提方法的有效性。結果表明,所提方法通常可以優於或與最佳專家模型媲美,且無需訓練即可達到良好效果。在某些情況下,適當的閘門訓練可以進一步提升性能。
提供了一個開源庫,供他人使用和擴展所提出的方法。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor