大規模言語モデル(LLM)は優れた生成タスクのパフォーマンスを示すが、非効率な加速器の利用により、実世界での運用に大きな課題をもたらす。この問題は、LLMの自己回帰的な生成フェーズにおいて、リソース需要の異なる演算子が存在することに起因する。特に、メモリ集約的なアテンション演算子は、コンテキスト長の増加とともに加速器の性能と相性が悪くなる。
本研究では、アテンション・オフロードという概念を提案する。これは、計算最適化デバイスとメモリ最適化デバイスを組み合わせた異種アーキテクチャを活用し、各コンポーネントの特性に最適化することで、全体的なパフォーマンスと費用対効果を向上させるものである。詳細な分析と実験により、アテンション演算の分散処理の実現可能性を確認した。また、一般的な通信技術でも十分な帯域が確保できることを示した。さらに、アテンション・オフロードを組み込んだLaminaシステムを開発し、従来の均質なソリューションに比べて1.48倍から12.1倍の推定スループット/コスト比を達成できることを実証した。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shaoyuan Che... lúc arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01814.pdfYêu cầu sâu hơn