這篇研究論文探討了文本嵌入技術在金融領域的應用挑戰和解決方案。金融文件充斥著專業術語、行話和縮寫,例如「面值」、「滯脹」、「中國牆」、「複合年均增長率」、「現金流量折現法」、「波動率指數」等,以及與日常用語重疊的技術詞彙和公司名稱,例如「做空」、「遠期」、「利差」、「蘋果」、「Stripe」等。這些特性為通用文本嵌入技術帶來了挑戰。
為了解決這個問題,作者開發了 BAM 嵌入技術,這是一種針對金融文件檢索而優化的文本嵌入技術。BAM 嵌入技術基於 Multilingual-E5 模型,並在一個包含 1430 萬個查詢-段落對的精心過濾、清理過的數據集上進行了微調。
研究人員採用了多項技術來構建訓練數據集,包括從 280 萬份金融文件中提取文本段落、使用少樣本提示的語言模型生成查詢、以及進行硬負例挖掘等。
在包含 44.7 萬個查詢-段落對的測試集上,BAM 嵌入技術的 Recall@1 達到了 62.8%,遠超 Multilingual-E5 基礎模型 (34.3%) 以及大型閉源模型 (例如 OpenAI 的 3072 維 text-embedding-3-large 模型,39.2%)。
作者將 BAM 嵌入技術部署到一個索引了 570 萬份金融文件的 RAG 服務中,並與傳統的詞彙搜索 (使用 OpenSearch 的 Okapi BM25 實現) 進行了比較。結果顯示,在所有查詢長度下,BAM 嵌入技術的表現都優於 BM25,並且隨著查詢變得更長、更具體,檢索效果會更好,而 BM25 則會下降。
BAM 嵌入技術是一種針對金融領域優化的文本嵌入技術,能夠顯著提高金融文件檢索和問答的準確性。該技術為金融領域的自然語言處理應用提供了新的思路和解決方案。
翻譯成其他語言
從原文內容
arxiv.org
深入探究