toplogo
サインイン

科学的発見のための象徴的回帰データセットとベンチマークの再考


核心概念
象徴的回帰は科学的発見に向けた可能性を再評価する。
要約

この論文では、象徴的回帰(SR)のデータセットと評価基準に焦点を当て、科学的発見への潜在性について議論しています。既存のデータセットは物理法則を発見するために設計されておらず、新しいSRSDデータセットが提案されました。新しい評価方法とベンチマーク実験も行われ、結果はより現実的なパフォーマンス評価を提供しました。各問題の難易度レベルやダミー変数の影響も明らかになりました。

edit_icon

要約をカスタマイズ

edit_icon

AI でリライト

edit_icon

引用を生成

translate_icon

原文を翻訳

visual_icon

マインドマップを作成

visit_icon

原文を表示

統計
120個のSRSDデータセットが再作成されました。 正規化編集距離(NED)が人間判定と有意な相関を示しました。 240個のSRSDデータセットが公開されました。
引用
"Symbolic regression is the task of producing a mathematical expression that fits a given dataset." "Various scientific communities apply SR to advance research in their scientific fields." "We propose new SRSD datasets, introduce a new evaluation method, and conduct benchmark experiments using various representative SR baseline methods."

抽出されたキーインサイト

by Yoshitomo Ma... 場所 arxiv.org 03-06-2024

https://arxiv.org/pdf/2206.10540.pdf
Rethinking Symbolic Regression Datasets and Benchmarks for Scientific  Discovery

深掘り質問

どうして既存のSRデータセットは物理法則を発見するために適していないと考えられるか?

既存のSymbolic Regression(SR)データセットは物理法則を発見するために適していないと考えられる主な理由は次の通りです: 物理的意味が不足: 多くの既存のSRデータセットはランダムに生成されており、物理学からインスピレーションを受けていません。これでは本当の世界で観察される現象や法則を再現することが困難です。 単純化されたサンプリングプロセス: 一部の物理学に基づくデータセットでも、サンプリング戦略が非常に単純化されています。定数と変数が区別されず、また実際の世界で観測可能な値から大きく逸脱した分布範囲でサンプリングされています。 重複する問題: 上記の問題から、多くの方程式が重複してしまっています。同じような問題設定やサンプリング範囲では、異なる物理法則を区別することが難しくなります。 誤った/不適切な式: 一部の既存データセットでは変数や定数が正しく扱われておらず、それらが整数値や特定範囲内であるべき場合も浮動小数点型として扱われています。これでは正確な物理的表現を捉えることが難しくなります。 特徴量選択無視: 現在存在するSRデータセットは必要最低限度だけ入力変数を含んでおり、余分な入力変数(ダミー変数)を排除する能力を評価することができません。しかし実際には観測時に余計な情報も得られる可能性もあります。 以上から、従来のSRデータセットは科学的発見向けに十分構築されておらず、新しいアプローチやメトリックスが必要だと言えます。
0
star