TPI-LLMは、低リソースのエッジデバイス上で70B級のLLMを効率的に提供するための、計算とメモリ効率の高いテンソル並列推論フレームワークである。ユーザーのプロンプトとジェネレーテッドシーケンスをユーザーデバイス内に保持し、高リンク遅延に対応するためスター型のallreduceアルゴリズムを採用し、メモリ不足に対処するためスライディングウィンドウメモリスケジューラを導入している。