本論文では、非線形関数近似を用いたQ学習問題を解決するためのガウス・ニュートン時間差(GNTD)学習アルゴリズムを提案する。GNTDは、ターゲットネットワークを用いてMean-Squared Bellman Errorの変形を最適化するガウス・ニュートンステップを行う。ニューラルネットワークや滑らかな関数近似の下で、GNTDは既存の時間差学習法よりも優れた収束速度と標本複雑度を達成する。