toplogo
登录
洞察 - NaturalLanguageProcessing - # 大規模言語モデルの効率的な推論

事前学習済み大規模言語モデルを、システムと協調設計されたルータ分離型専門家混合モデルとしてリファクタリングする手法:Read-ME


核心概念
事前学習済み大規模言語モデル(LLM)を、より小さく、推論効率の高い専門家混合(MoE)モデルにリファクタリングする新しいフレームワーク「Read-ME」が提案されており、これにより高コストなゼロからの学習を回避できる。
摘要

Read-ME: システムと協調設計されたルータ分離型専門家混合モデルとしてのLLMのリファクタリング

edit_icon

自定义摘要

edit_icon

使用 AI 改写

edit_icon

生成参考文献

translate_icon

翻译原文

visual_icon

生成思维导图

visit_icon

访问来源

書誌情報: Cai, R., Ro, Y., Kim, G., Wang, P., Bejnordi, B. E., Akella, A., & Wang, Z. (2024). Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design. Advances in Neural Information Processing Systems, 38. 研究目的: 本研究では、事前学習済みの大規模言語モデル(LLM)を、リソースの制約がある環境での推論を効率的に行うために、より小さく、推論効率の高い専門家混合(MoE)モデルにリファクタリングすることを目的とする。 手法: 著者らは、活性化スパース性を利用して事前学習済みLLMから専門家を抽出し、レイヤー全体で共有される単一のゲーティングネットワークを使用してルーティングを簡素化する「Read-ME」と呼ばれる新しいフレームワークを提案する。さらに、専門家認識バッチングアルゴリズムと、Beladyのオフラインキャッシュアルゴリズムに触発された最適な専門家キャッシュ戦略を導入することで、システムレベルの最適化を実現している。 主な結果: Read-MEは、MMLUなどのダウンストリームタスクにおいて、同規模の他の一般的なオープンソースモデルや圧縮技術よりも優れたパフォーマンスを示し、最大10.1%の改善を達成した。さらに、平均エンドツーエンドレイテンシを最大6.1%向上させるなど、システムレベルでも大幅な改善が見られた。 結論: 本研究は、事前学習済みLLMを、高コストなゼロからの学習を回避しながら、より小さく、推論効率の高いMoEモデルにリファクタリングするための効果的かつ効率的なアプローチを提供する。提案されたRead-MEフレームワークは、リソースの制約がある環境でのLLMの導入を促進する可能性がある。 意義: 本研究は、大規模言語モデルの効率的な推論と展開における重要な課題に取り組んでおり、リソースの制約がある環境でのLLMのアクセシビリティとスケーラビリティの向上に貢献している。 制限事項と今後の研究: 本研究は単一のアクセラレータを想定したサービングシステムを提案しており、分散サービングへの拡張は今後の課題として残されている。
统计
Mixtral-8×7Bモデルをチャットボットアリーナデータセットに適用した結果、平均で8つの専門家のうち7.63がアクティブ化された。 バッチあたりのユニークな専門家の数が増加すると、トークンあたりの平均処理レイテンシが直線的に増加する。 デコード優先バッチングとプリフィル優先バッチングでは、バッチあたりのユニークな専門家の平均数はそれぞれ5.08と5.21であったのに対し、提案手法では3.51に減少した。 4096トークンのうち、2921トークンが最後のトークンの選択に従っており、Mixtral-8×7Bの850トークンと比較して高い時間的局所性を示している。

更深入的查询

0
star