Core Concepts
本論文では、強化学習ベースのシンボリック回帰アルゴリズムの学習履歴を大量に収集し、それをトランスフォーマーに蒸留することで、新しいデータに対して自動的にポリシーを更新しながら効率的に数式を発見するFormulaGPTを提案する。
Abstract
本論文では、シンボリック回帰の問題に取り組むための新しいアルゴリズムであるFormulaGPTを提案している。
シンボリック回帰は、観測データから数学的な式を発見する手法であり、自然科学分野で重要な役割を果たしている。
従来のシンボリック回帰手法には以下のような課題があった:
遺伝的プログラミングベースの手法は収束が遅く、ノイズに弱い
強化学習ベースの手法は汎用性が高いが効率が低い
事前学習ベースの手法は効率が高いが、ノイズに弱く、汎用性が低い
FormulaGPTは、強化学習ベースのアルゴリズムの学習履歴を大量に収集し、それをトランスフォーマーに蒸留することで、これらの課題を解決している。
新しいデータが入力されると、FormulaGPTは自動的にポリシーを更新しながら数式を発見していく。
実験の結果、FormulaGPTは複数のベンチマークデータセットで最先端の性能を示し、ノイズに対する頑健性、汎用性、推論効率の面でも優れた結果を得ている。
Stats
観測データ[x1, x2, ..., xm, y]から数学的な式f(x1, x2, ..., xm)を発見する問題を扱っている。
数式は二分木の形式で表現され、preorder traversalによって系列化される。
数式生成の際には、演算子の性質(単項/二項)に応じて生成を制御している。
Quotes
"The mathematical formula is the human language to describe nature and is the essence of scientific research."
"Symbolic regression, as a kind of data modeling method, aims to let the computer dig out the inherent mathematical laws from the observed data and reveal the hidden patterns and laws of the data."