Core Concepts
銀行取引明細の自動分類を実現するため、自然言語処理とマシンラーニングアルゴリズムを組み合わせたシステムを提案する。
Abstract
本研究では、銀行取引明細の自動分類を実現するためのシステムを提案している。このシステムは以下の3つのステージから構成される:
- 前処理
- 取引明細のトークン化、ストップワード除去、固有名詞の抽出
- 類似性検出器を用いて学習データセットのサイズを削減
- 機械学習分析
- 語彙データ、取引金額、日付などの特徴量を抽出
- 単語n-gram、文字n-gramなどの言語学的特徴量を抽出
- SVMを用いて分類モデルを構築
- 分類
提案システムは、既存手法と比較して高い精度を達成しつつ、学習時間が大幅に短縮されるという特徴がある。また、実際のパーソナルファイナンスアプリケーションにも適用されている。
Stats
取引金額の範囲は20、60、200、800、1500、3000ユーロ未満に分類されている。
取引日は月末5日、10日、20日、25日以内に分類されている。