핵심 개념
本文介紹了一個大規模的公開多模態銀行數據集MBD,包含超過150萬個企業客戶的950M筆銀行交易、1B個地理位置事件、500萬條與技術支持的對話以及4種銀行產品的月度購買情況。利用這個數據集,我們提出了兩個實際的業務任務:營銷預測和客戶匹配。我們的實驗結果表明,多模態方法優於單模態方法,為未來的多模態事件序列分析提供了新的視角。
초록
本文介紹了一個大規模的公開多模態銀行數據集MBD。該數據集包含以下四種模態:
-
銀行交易數據:包含約950M筆交易事件,涵蓋了客戶的財務活動。
-
地理位置數據:包含約1B個客戶使用銀行應用程序時的地理位置事件。
-
技術支持對話數據:包含約500萬條客戶與技術支持人員的對話記錄。
-
銀行產品購買情況:包含客戶在2022年每月購買4種銀行產品的情況。
利用這個數據集,我們提出了兩個實際的業務任務:
-
營銷預測:預測客戶在下個月是否會購買某些銀行產品。
-
客戶匹配:將不同模態的數據匹配到同一個客戶。
我們實施了多種基線方法,包括單模態和多模態的方法。實驗結果表明,多模態方法優於單模態方法,可以更好地解決這些任務。這為未來的多模態事件序列分析提供了新的視角和可能性。
통계
客戶在2022年3月5日下午5:23進行了一筆20,000元的交易。
客戶在2022年3月14日中午12:38進行了一筆5,000元的交易。
客戶在2022年3月14日下午5:59進行了一筆12,000元的交易。
인용구
"金融機構收集了大量關於客戶的數據,這些數據通常具有時間(序列)結構,並來自各種來源(模態)。"
"由於隱私問題,沒有大規模的開源多模態事件序列數據集,這極大地限制了這一領域的研究。"
"我們的數據集可以開啟新的視角,並促進未來大規模多模態算法在事件序列上的發展。"