ディストリビューテッドシステム

התחברות

תובנה - ディストリビューテッドシステム

70B級LLMを低リソースのエッジデバイスで効率的に提供するTPI-LLM

TPI-LLMは、低リソースのエッジデバイス上で70B級のLLMを効率的に提供するための、計算とメモリ効率の高いテンソル並列推論フレームワークである。ユーザーのプロンプトとジェネレーテッドシーケンスをユーザーデバイス内に保持し、高リンク遅延に対応するためスター型のallreduceアルゴリズムを採用し、メモリ不足に対処するためスライディングウィンドウメモリスケジューラを導入している。

大規模言語モデルの資源制限デバイスでのフェデレーテッド・プロキシチューニング

フェデレーテッド学習において、大規模言語モデルのパラメータにアクセスせずに、小規模モデルのチューニングと知識蒸留を組み合わせることで、効率的かつプライバシーを保護しつつ大規模モデルの性能を引き出すことができる。

長シーケンスモデルの効率的な学習のための多次元リングパラレリズムの活用

WallFacerは、長シーケンスモデルの分散学習において、通信量を大幅に削減し、スケーラビリティを向上させる新しい並列化手法を提案する。

連邦学習の包括的で拡張可能なフレームワークであるAPPFLの最新の進歩

APPFLは、ヘテロジェニティとセキュリティの課題に対する包括的なソリューションを提供し、新しいアルゴリズムの統合を容易にする柔軟なインターフェースを備えた、拡張可能な連邦学習フレームワークである。

大規模言語モデルのトリリオンパラメータ訓練のための低コスト高性能ネットワーク「Rail-only」

大規模言語モデルの訓練には、従来のフル接続ネットワークは必要ではなく、より低コストで効率的な「Rail-only」ネットワーク設計が可能である。

連邦学習における適応的ホモモーフィック暗号化と強化学習を用いたティア型連邦学習

クライアントの計算能力と安全性要件の違いに応じて、ホモモーフィック暗号化のパラメータを動的に最適化することで、連邦学習のパフォーマンスと安全性のバランスを取る。

大規模言語モデルの分散投機的推論は確実に高速化される

分散投機的推論(DSI)は、従来の投機的推論(SI)や非投機的推論(non-SI)よりも高速化できることを証明した。DSIは、複数のGPUを活用することで、ドラフターの精度や速度に依存せずに、常に非SI以上の性能を発揮する。

大規模ディフュージョンモデルの効率的なパイプラインによるトレーニング

ディフュージョンモデルのトレーニングにおいて、非訓練部分の計算をパイプラインのバブル時間に挿入することで、大幅な高速化を実現する。

分散型機械学習の新しいアプローチ:スウォームラーニングの概念、アプリケーション、トレンドに関する調査

スウォームラーニングは、プライバシーを保護しながら、分散型の機械学習を実現する新しいアプローチである。ブロックチェーンテクノロジーを活用し、中央サーバーに依存せずに、ノード間で安全にモデルパラメータを共有・統合することができる。

長文コンテキストの大規模言語モデルを効率的に提供するLoongServe: エラスティックシーケンス並列化

LoongServeは、エラスティックシーケンス並列化(ESP)を採用することで、リクエストの長さや処理フェーズの違いに応じて柔軟にリソースを割り当てることができ、長文コンテキストの大規模言語モデルを効率的に提供する。

אודות

מוצרים

מידע נוסף