本研究では、状態と制御に依存する拡散係数を持つ連続時間線形二次制御問題に対して、モデルフリーのアクター-クリティックアルゴリズムを提案し、そのレグレット上界を導出した。提案手法は、モデルパラメータの推定を必要とせず、劣線形レグレットを達成できることを示した。