이 논문은 은행 거래 내역 설명을 자동으로 분류하기 위한 새로운 시스템을 제안한다. 이 시스템은 자연어 처리 기술과 기계 학습 알고리즘을 결합하여 구현되었다.
주요 내용은 다음과 같다:
은행 거래 내역 설명의 특성을 고려하여 단문 텍스트 분류를 위한 새로운 접근법을 제안한다. 이는 기존 연구에서 다루지 않았던 문제이다.
실제 고객 거래 내역을 포함하는 레이블링된 데이터셋을 구축하였으며, 이를 다른 연구자들에게 제공할 예정이다.
스팸 탐지 기술에서 영감을 얻어 훈련 데이터 크기를 줄이기 위한 단문 텍스트 유사도 탐지기를 제안한다.
단문 텍스트 유사도 탐지기와 SVM 분류기를 결합한 2단계 분류기를 제안하며, 이는 복잡도와 계산 시간을 고려할 때 기존 접근법에 비해 높은 정확도를 보인다.
개인 금융 관리 애플리케이션인 CoinScrap에 이 시스템을 적용한 사례를 제시한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Pertanyaan yang Lebih Dalam