Core Concepts
Tree-regularized tabular embeddings improve performance and robustness of neural networks for tabular data.
Abstract
タブラーニューラルネットワーク(NN)は、画像、テキスト、ビデオ、音声などの非構造化データ領域で優れた進展を遂げていますが、構造化タブラーデータに適用するときには木ベースの手法に制限されています。本研究では、教師付き事前学習を活用して木規則化表現を学習し、提案手法を88のOpenMLデータセットで定量的実験しました。結果として、提案手法は木ベースのモデルと比較して性能差を縮小し、先進的なNNモデルと同等以上の性能を達成することが確認されました。さらに、提案手法はより優れた堅牢性を示し、タブラーモダリティのためのスケーラブルなエンコーダーとして汎用化可能です。
Stats
88個のOpenMLデータセットでバイナリ分類タスクにおいて定量的実験を行った。
提案手法は木ベースのモデルと比較して性能差を縮小し、先進的なNNモデルと同等以上の性能を達成した。
88個中91個のOpenMLデータセットで提案手法が汎用化可能であることが確認された。
T2Vアルゴリズムでは閾値が四捨五入される。
T2Tアルゴリズムでは各木から抽出された埋め込みがトークンとして扱われる。
Quotes
"Most importantly, it possesses better robustness and can be easily scaled and generalized as standalone encoder for tabular modality."
"Through quantitative experiments on 88 OpenML datasets with binary classification task, we validated that the proposed tree-regularized representation not only tapers the difference with respect to tree-based models, but also achieves on-par and better performance when compared with advanced NN models."