分散LLMサービングの課題を解決するためのD´ejaVuシステムの提案と効果的なKVキャッシュストリーミングライブラリ(D´ejaVuLib)の重要性。
CPUとGPUを効率的に活用して、大規模言語モデルのサービング性能を向上させる方法を提案する。