Core Concepts
FinLangNetは、金融データの言語的構造に着目し、自然言語処理の手法を適用することで、従来の統計的手法を上回る信用リスク予測性能を実現する。
Abstract
本研究では、金融データの特性である高次元性、疎sparse性、高ノイズ、大きな不均衡などの課題に対処するため、新しい深層学習フレームワークFinLangNetを提案した。FinLangNetは、金融データの信用履歴を言語的構造に見立てることで、自然言語処理の手法を適用し、信用リスクの予測性能を高めている。
具体的には以下の3つの主要な段階から構成される:
データの前処理: 欠損値の補完、特徴量の選択・エンジニアリングなど
系列データと非系列データの統合学習: 系列データはTransformerベースのモデル、非系列データはDeepFMモデルを用いて学習
多ラベル分類と論理的依存関係の導入: 7つの異なる信用リスクラベルを同時に予測し、ラベル間の依存関係を考慮
これらの工夫により、FinLangNetは従来の統計的手法を上回る予測性能を示し、さらに既存の信用リスク予測モデルとの統合によって、Kolmogorov-Smirnov指標で1.5ポイント以上の大幅な改善を実現した。
Stats
本研究で使用したデータセットは、2022年12月から2023年12月までの約70万人の顧客データを含む。
訓練データは2022年12月から2023年5月までの期間、検証データは2023年5月以降の期間を使用した。
正例と負例のサンプル数は、ラベルによって5%から15%の不均衡が見られる。
Quotes
"FinLangNetは、金融データの言語的構造に着目し、自然言語処理の手法を適用することで、従来の統計的手法を上回る信用リスク予測性能を実現する。"
"FinLangNetは、系列データと非系列データの統合学習、多ラベル分類と論理的依存関係の導入など、金融データの特性に合わせた革新的な手法を採用している。"
"FinLangNetと既存の信用リスク予測モデルを統合することで、Kolmogorov-Smirnov指標で1.5ポイント以上の大幅な改善を実現した。"