本論文では、物理シミュレーターとニューラルネットワークが密接に連携するトレーニングセットアップにおいて、バックプロパゲーションの修正によって最適化の性能を向上させる手法を提案している。
まず、物理シミュレーターのグラジエントフローは適切にバランスされているが、ニューラルネットワークを通したフィードバックにより、勾配の爆発と消失が生じる問題を指摘する。そこで、ニューラルネットワークへのフィードバックを遮断することで、物理シミュレーターのバランスの取れたグラジエントフローを活用する修正バックプロパゲーションを提案する。
しかし、このような修正によってグラジエントフィールドが回転成分を持つようになるため、最適化アルゴリズムの収束性が損なわれる問題が生じる。そこで、元のグラジエントと符号が一致する成分のみを更新する手法を組み合わせることで、この問題に対処する。
提案手法は、ガイダンス誘発モデル、倒立振子、量子制御の3つの制御課題で評価され、特に課題の複雑性が高くなるほど、提案手法の優位性が明確になることが示された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Patrick Schn... klo arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02041.pdfSyvällisempiä Kysymyksiä