본 연구에서는 대규모 다중 모달 은행 데이터셋(MBD)을 소개한다. 이 데이터셋에는 약 150만 명의 기업 고객에 대한 정보가 포함되어 있으며, 거래 내역 약 9.5억 건, 지리적 위치 약 10억 건, 기술 지원 대화 약 500만 건, 그리고 4가지 은행 상품의 월별 구매 내역이 포함되어 있다.
이 데이터셋을 활용하여 두 가지 주요 과제를 제시한다:
실험 결과, 단일 모달리티 기반 모델보다 다중 모달리티를 활용한 모델이 더 나은 성능을 보였다. 또한 데이터 익명화 과정이 모델 성능에 큰 영향을 미치지 않는 것으로 나타났다.
이 데이터셋은 다중 모달리티 시퀀스 데이터 분석 연구를 촉진하고 금융 분야의 의사 결정 프로세스를 개선할 수 있는 기반이 될 것으로 기대된다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문