本研究では、Transformer ベースのMixture-of-Expertsモデルの課題に取り組む。従来のMoEモデルでは、各入力トークンに固定数の専門家を割り当てていたが、これは入力トークンの重要性の違いを考慮していないため、効率的ではない。
そこで本研究では、Transformerの注意機構を利用して各トークンの重要性を評価し、その重要性に応じて動的に専門家を割り当てる新しいルーター機構を提案する。具体的には以下の3つの貢献を行う:
従来のMoEモデルの課題を分析し、入力トークンの重要性を考慮しないことで計算リソースの非効率的な使用と予測性能の低下につながることを示す。
Transformerの注意機構を活用して各トークンの重要性を評価し、その重要性に応じて動的に専門家を割り当てる新しいルーター機構を提案する。
代表的なベンチマークデータセットを用いて、提案手法であるDA-MoEモデルの事前学習と fine-tuning の両方で評価を行い、従来のMoEモデルを大幅に上回る性能を示す。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor