TPI-LLMは、低リソースのエッジデバイス上で70B級のLLMを効率的に提供するための、計算とメモリ効率の高いテンソル並列推論フレームワークである。ユーザーのプロンプトとジェネレーテッドシーケンスをユーザーデバイス内に保持し、高リンク遅延に対応するためスター型のallreduceアルゴリズムを採用し、メモリ不足に対処するためスライディングウィンドウメモリスケジューラを導入している。
フェデレーテッド学習において、大規模言語モデルのパラメータにアクセスせずに、小規模モデルのチューニングと知識蒸留を組み合わせることで、効率的かつプライバシーを保護しつつ大規模モデルの性能を引き出すことができる。
WallFacerは、長シーケンスモデルの分散学習において、通信量を大幅に削減し、スケーラビリティを向上させる新しい並列化手法を提案する。
APPFLは、ヘテロジェニティとセキュリティの課題に対する包括的なソリューションを提供し、新しいアルゴリズムの統合を容易にする柔軟なインターフェースを備えた、拡張可能な連邦学習フレームワークである。
大規模言語モデルの訓練には、従来のフル接続ネットワークは必要ではなく、より低コストで効率的な「Rail-only」ネットワーク設計が可能である。
クライアントの計算能力と安全性要件の違いに応じて、ホモモーフィック暗号化のパラメータを動的に最適化することで、連邦学習のパフォーマンスと安全性のバランスを取る。
分散投機的推論(DSI)は、従来の投機的推論(SI)や非投機的推論(non-SI)よりも高速化できることを証明した。DSIは、複数のGPUを活用することで、ドラフターの精度や速度に依存せずに、常に非SI以上の性能を発揮する。
ディフュージョンモデルのトレーニングにおいて、非訓練部分の計算をパイプラインのバブル時間に挿入することで、大幅な高速化を実現する。
スウォームラーニングは、プライバシーを保護しながら、分散型の機械学習を実現する新しいアプローチである。ブロックチェーンテクノロジーを活用し、中央サーバーに依存せずに、ノード間で安全にモデルパラメータを共有・統合することができる。
LoongServeは、エラスティックシーケンス並列化(ESP)を採用することで、リクエストの長さや処理フェーズの違いに応じて柔軟にリソースを割り当てることができ、長文コンテキストの大規模言語モデルを効率的に提供する。