本稿では、大規模言語モデル (LLM) の推論、特に長文コンテキスト処理におけるレイテンシとスケーラビリティを向上させるためのシステム最適化技術であるコンテキスト並列化 (CP) について解説し、その有効性を示します。