本論文では、低リソースのエッジデバイス上で大規模LLMを効率的に提供するTPI-LLMシステムを提案している。
まず、低リソースデバイスでは計算よりもネットワーク通信が推論時間のボトルネックとなることを示し、テンソル並列化がモデル並列化よりも有効であることを明らかにした。
次に、ネットワークの帯域幅ではなくリンク遅延が主要な問題であることを分析し、スター型のallreduceアルゴリズムを採用することで通信遅延を最小化している。
さらに、メモリ不足に対処するため、レイヤーの重みをディスクとメモリ間で動的に管理するスライディングウィンドウメモリスケジューラを導入した。これにより、低メモリデバイス上でも70B級のLLMを滑らかに推論できるようになっている。
プロトタイプ実装とエミュレーション実験の結果、TPI-LLMは従来手法と比べて時間到達遅延と1トークン当たりの遅延を80%以上削減し、70B級LLMのピークメモリ使用量を90%削減できることを示した。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询