核心概念
本稿では、企業倒産予測研究におけるデータセットの重要性を論じ、公開データセットの包括的なタクソノミーと、その品質および情報量を評価するための指標を提案しています。
要約
研究論文の概要
書誌情報
Wang, X., Brorsson, M., & Kr¨aussl, Z. (2024). Datasets for Advanced Bankruptcy Prediction: A survey and Taxonomy. Expert system with applications, arXiv:2411.01928v1.
研究目的
近年、機械学習や深層学習を用いた企業倒産予測が進展していますが、モデルの有効性は入力データの質に大きく依存します。本研究は、倒産予測研究に使用されるデータセットの分類と評価を行い、研究者が最適なデータセットを選択できるようにすることを目的としています。
方法論
本研究では、Google Scholarを用いて過去10年間の倒産予測に関する論文を収集し、データセットの種類、特徴量の数、サンプル数、倒産率などの情報を抽出しました。そして、これらの情報を基にデータセットのタクソノミーを構築し、データの品質と情報量を評価するための指標を提案しました。
主な結果
- 会計データ、市場データ、マクロ経済データ、関係データ、非財務データの5つのカテゴリーに分類されたデータセットのタクソノミーを開発しました。
- データセットの品質を評価するための指標として、データのバランス、データ量、データの整合性、データノイズ、データ分布、データの冗長性を提案しました。
- データセットの情報量を評価するための指標として、情報価値、特徴量の重要度、カイ二乗検定を提案しました。
- 公開されているデータセットを用いて、提案した指標による評価を行いました。
結論
本研究で提案されたタクソノミーと評価指標は、倒産予測研究において、より適切なデータセットを選択するための指針となることが期待されます。
意義
本研究は、データセットの品質と情報量に着目することで、倒産予測モデルの精度向上に貢献するだけでなく、データセットの構築と共有を促進する可能性があります。
制限と今後の研究
本研究では、公開されているデータセットのみを対象としており、非公開のデータセットについては評価を行っていません。今後は、より多くのデータセットを収集し、評価を行うことで、タクソノミーと評価指標の網羅性を高める必要があります。
統計
47の論文を調査し、データセットを収集した。
データセットは、会計ベース、市場ベース、マクロ経済、関係性、非財務の5つのカテゴリに分類された。
調査対象となった論文のうち、40件は会計ベースのデータを使用していた。
会計ベースのデータのみを使用している論文は21件であった。
市場ベースのデータのみを使用している論文は2件であった。
関係データまたは非財務データを使用している論文は24件であった。
関係データまたは非財務データを単独で使用している論文は4件であった。
アメリカのデータセットは、特徴量の重要度とカイ二乗検定で最も優れた結果を示した。
アメリカのデータセットは、情報価値の評価では低いランクに位置付けられた。
ロシアのデータセットは、特徴量の重要度では比較的高い値を示したが、カイ二乗検定では良好な結果は得られなかった。
ロシアのデータセットの情報価値は、非常に高いものと低いものが混在していた。
5つのポーランドのデータセットは、それぞれ指標において類似したパフォーマンスを示した。
5つのポーランドのデータセットは、3つの指標全てにおいて中間のランクに位置付けられた。
引用
「モデルの有効性は、入力データの質に大きく依存する。」
「現実世界の倒産データセットは、倒産企業と非倒産企業の数の間に大きな不均衡を示すことが多く、倒産企業は通常、少数派である。」
「データの品質を理解することは、適切に使用するために不可欠である。」
「金融業界では、規制遵守のため、特徴量とモデルの両方に高い解釈可能性が求められる。」