LoongServeは、エラスティックシーケンス並列化(ESP)を採用することで、リクエストの長さや処理フェーズの違いに応じて柔軟にリソースを割り当てることができ、長文コンテキストの大規模言語モデルを効率的に提供する。