แนวคิดหลัก
勾配降下法の一般化誤差は、最適なハイパーパラメータを選択した場合、次のように表される:
˜Θ(d/m + 1/√m)
ここで、dは次元数、mは標本サイズである。これは、最悪ケースの経験リスク最小化手法の標本複雑性と一致する。つまり、他のアルゴリズムと比べて、勾配降下法には経験リスク最小化手法に対する利点はない。
บทคัดย่อ
本論文では、勾配降下法の標本複雑性を分析している。
- 次元数dと学習率η、反復回数Tの両方に依存する一般化誤差の新しい上界を示した。
- 次元数が標本サイズを超える場合、ε-最適性を達成するには、T = Ω(1/ε^4)の反復が必要であることを示した。これは、先行研究で示された下界を改善するものである。
- 最適なハイパーパラメータを選択した場合、勾配降下法の一般化誤差は、最悪ケースの経験リスク最小化手法と同じ標本複雑性を持つことを示した。
- 低次元の場合や、反復回数が標本サイズの2乗オーダーの場合など、勾配降下法が経験リスク最小化手法を改善できる可能性について、いくつかの未解決の問題を提起した。
สถิติ
次元数dが標本サイズmを超える場合、ε-最適性を達成するには、T = Ω(1/ε^4)の反復が必要である。
勾配降下法の一般化誤差は、最適なハイパーパラメータを選択した場合、˜Θ(d/m + 1/√m)となる。
คำพูด
"勾配降下法には、経験リスク最小化手法に対する利点はない。"
"次元数が標本サイズを超える場合、ε-最適性を達成するには、T = Ω(1/ε^4)の反復が必要である。"