本研究では、大規模言語モデルのマルチタスク学習における課題に取り組むため、人間の直感に着目した新しいアプローチを提案している。
具体的には以下の3つの取り組みを行っている:
人間の直感を模倣するため、入力インスタンスと事前定義された埋め込みクラスターの類似性を活用して「暗黙の直感」を導入する。これにより、ルーターの意思決定の効率化を図る。
計算コストを抑えつつ性能を向上させるため、ランク1の専門家から成る新しいMoEアーキテクチャを提案する。
提案手法「Intuition-MoR1E」を14のデータセットで評価し、従来手法に比べて2.15%の精度向上と高効率を実現することを示す。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Yijiang Liu,... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08985.pdfPerguntas Mais Profundas