核心概念
新しい分割基準によるGBDTモデルのOOSパフォーマンス向上と汎化性能の改善。
要約
時代分割と方向性時代分割は、トレーニングデータセット内およびトレーニングとテストセット間で既知および未知の分布変化を含む4つの具体的な実験でOOSパフォーマンスを向上させ、一般化ギャップを減少させる。
新しい分割基準は、合成メモリゼーション問題やCamelyon17データセットで特に効果的であった。
Numeraiデータセットでは、方向性時代分割が一貫して元の分割基準を上回り、OOS相関係数が向上した。
時間複雑度の増加が主な障害であり、特にEra Splittingでは計算量がM倍になるため、大規模なモデルのトレーニング時間が数日かかる可能性がある。
トレーニングエラ数を理解するためには、取引されている病院から来たCamelyon17データセットなど、環境(病院)を地理的位置別にグループ化することも考慮すべきである。
統計
この研究はNumeraiから2022年から2023年の夏までのインターンシップを通じて部分的に資金提供されました。
引用
"新しい分割基準は、OOSパフォーマンスを改善し、GBDTモデルの一般化ギャップを減少させます。"
"方向性時代分割は実世界のデータセットで最も効果的です。"