核心概念
視覚タスクにおける専門家の組み合わせ(Mixture of Experts)モデルの重要なコンポーネントであるルーターの包括的な研究を行い、ルーターの設計が性能に大きな影響を与えることを示した。
摘要
本論文は、視覚タスクにおける専門家の組み合わせ(Mixture of Experts)モデルのルーターに関する包括的な研究を行っている。
まず、ルーターを統一的に定式化し、これまでに提案されてきた様々なルーターをその枠組みの中で捉えなおした。これにより、ルーターの設計が性能に大きな影響を与えることが明らかになった。
具体的には以下の知見が得られた:
- トークン選択型ルーターよりもエキスパート選択型ルーターの方が一般的に優れた性能を示す。
- トークン選択型ルーターの場合、ソフトマックスベースのルーターよりもシンクホーンベースのルーターの方が良い。
- エキスパート選択型ルーターの場合、ルーターの具体的な設計手法の違いによる性能差は小さい。
- ソフトMoEルーターは、スパースMoEルーターよりも優れた性能を示す。
これらの知見は、視覚タスクにおけるMoEモデルの設計に重要な示唆を与えるものである。
統計資料
専門家の数は32に固定されている。
トークン選択型ルーターでは、選択する専門家の数kを1または2として実験を行った。
エキスパート選択型ルーターでは、各専門家が処理するトークンの上限数を表すキャパシティ係数cを1または2として実験を行った。
ソフトMoEルーターでも同様に、キャパシティ係数cを1または2として実験を行った。