オンラインクローズドループデータを用いて、LQR の最適ゲインを直接的かつ適応的に学習する。提案手法は、サンプル共分散に基づく新しいポリシーパラメータ化を用いることで、効率的にデータを活用し、収束保証付きの再帰的な更新が可能となる。