Core Concepts
欠損データの補完、高次元データ、高クラスアンバランスデータセットの課題に取り組むAI駆動パイプラインを提案する。
Abstract
本研究では、食品企業の倒産予測のためのパイプラインを設計している。欠損値の存在、高次元データ、高クラスアンバランスデータベースが主な課題である。
まず、粒子レベルのセマンティクスを用いた新しい欠損データ補完手法を提案する。欠損値は、特徴量のセマンティクスと信頼できる観測値を用いて低次元空間(粒子空間)で予測される。各欠損エントリーの周りに粒子が形成され、少数の最も信頼できる近傍観測値が使用される。これにより、文脈の関連性と信頼性が保持される。
次に、ランダムフォレストによる特徴選択、SMOTEによるデータバランシング、6つの異なる分類器(ロジスティック回帰、KNN、決定木、ランダムフォレスト、勾配ブースティング、深層学習)を用いたAI駆動パイプラインを設計する。
提案手法は、ポーランドの倒産データセットで検証され、欠損率が高い大規模高次元データセットに対しても効率的な解決策を提供することが示された。
Stats
欠損値が全体の約30%を占める。
2007年から2013年の5年間のデータを使用。
各年の観測数は、7,027、10,173、10,503、9,792、5,910である。