本研究では、Transformer ベースのMixture-of-Expertsモデルの課題に取り組む。従来のMoEモデルでは、各入力トークンに固定数の専門家を割り当てていたが、これは入力トークンの重要性の違いを考慮していないため、効率的ではない。
そこで本研究では、Transformerの注意機構を利用して各トークンの重要性を評価し、その重要性に応じて動的に専門家を割り当てる新しいルーター機構を提案する。具体的には以下の3つの貢献を行う:
従来のMoEモデルの課題を分析し、入力トークンの重要性を考慮しないことで計算リソースの非効率的な使用と予測性能の低下につながることを示す。
Transformerの注意機構を活用して各トークンの重要性を評価し、その重要性に応じて動的に専門家を割り当てる新しいルーター機構を提案する。
代表的なベンチマークデータセットを用いて、提案手法であるDA-MoEモデルの事前学習と fine-tuning の両方で評価を行い、従来のMoEモデルを大幅に上回る性能を示す。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Maryam Akhav... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06669.pdfPerguntas Mais Profundas