核心概念
本文提出了一種方法,通過微調預訓練的嵌入式模型,以提高企業環境中信息檢索解決方案的性能。通過將嵌入式模型適應於企業特有的檢索任務,可以顯著提高搜索結果的精確度和相關性。
摘要
本文提出了一種方法,通過微調預訓練的嵌入式模型,以提高企業環境中信息檢索解決方案的性能。
首先,作者介紹了企業面臨的管理專有非結構化數據的挑戰,以及AI驅動的信息檢索解決方案在解決這一問題中的作用。雖然基於預訓練模型的解決方案在一般情況下表現優秀,但可能無法完全適應企業特有的數據特徵,從而導致檢索效果不理想。
為此,作者提出了一種微調預訓練嵌入式模型的方法,以更好地適應企業環境的檢索任務。具體包括:
- 構建包含企業內部多種類型數據的數據集,並進行預處理和合成問題生成。
- 選擇合適的基礎模型,包括雙編碼器模型、交叉編碼器模型和ColBERT模型,並對其進行微調。
- 在企業基準評估數據集上對不同模型配置進行評估,結果顯示微調後的模型在精確度和相關性方面明顯優於預訓練模型。
此外,作者還討論了微調嵌入式模型在提高企業信息管理效率以及未來研究方向等方面的潛在優勢。
统计
企業運行在Finacle上的銀行平均NPS(淨推薦值)提升了19%。
本文的數據集包含約1700萬個tokens,分佈在65,200個數據塊中。大部分數據塊包含300-500個tokens,也有許多小於100個tokens的塊。
在企業基準評估數據集上,微調後的雙編碼器模型配合微調的交叉編碼器模型的整體得分為83.0%,優於其他模型配置。
引用
"通過將嵌入式模型適應於企業特有的檢索任務,可以顯著提高搜索結果的精確度和相關性。"
"微調後的模型在精確度和相關性方面明顯優於預訓練模型。"