レーザー学習環境(LLE)は、協調が中心となる協調型多エージェント強化学習環境である。LLEでは、エージェントが互いに依存し合って進捗を遂げる(相互依存性)、特定の行動系列を共同で取る必要がある(完全な協調)、その共同行動には中間報酬がない(ゼロインセンティブ)という特徴がある。このような問題の難しさは、相互依存性によって引き起こされる状態空間のボトルネックから抜け出すことが報酬されないことにある。