核心概念
本文介紹了一種名為 APEX-Embedding-7B 的新型文本特徵提取模型,該模型專為文件檢索增強生成 (RAG) 任務而設計,採用結構化實體關係圖和模型感知對比抽樣等訓練技術,顯著提高了長文本文件檢索任務的準確性。
摘要
APEX-Embedding-7B 模型介紹
本文介紹了一種名為 APEX-Embedding-7B 的新型文本特徵提取模型,該模型專為文件檢索增強生成 (RAG) 任務而設計。
模型訓練技術
該模型採用了兩種主要的訓練技術:
- 基於結構化實體關係圖的預收斂中斷微調:
- 使用從真實文件中提取的結構化實體關係圖作為訓練數據,將模型的注意力引導至事實性內容,而非語義風格。
- 在模型完全收斂於結構化數據之前中斷微調過程,防止過擬合併保持其處理純文本的能力。
- 模型感知對比抽樣:
- 根據基礎模型的嵌入能力選擇和組織負面樣本,提高檢索準確性並減少訓練所需的大批量數據。
- 將負面樣本分為與查詢語義相似但事實不正確的“軟負面樣本”和與查詢語義差異較大的“硬負面樣本”。
- 在訓練過程中平衡軟負面樣本和硬負面樣本的比例,幫助模型學習更精確的事實區分。
模型架構
APEX-Embedding-7B 是一個基於“SFR-Embedding-2-R”的解碼器模型,並進行了以下改進:
- 在訓練過程中使用結構化實體關係圖,以提高嵌入的事實準確性。
- 保留因果注意力掩碼,但在預收斂前中斷微調,以平衡事實重點和保持對純文本任務的強大性能。
數據集生成
- 使用從各種公開來源中提取的數万個經過整理的文件片段和全文頁面構建了一個自定義數據集。
- 使用 GPT-4o 生成模擬真實世界信息檢索任務的綜合用戶查詢。
- 使用 GPT-4o 生成結構化實體關係圖,捕捉文本中的關鍵實體及其關係。
模型評估
- 使用包含 1,500 個查詢及其相應文檔的評估數據集,這些數據集模型之前未見過。
- 使用餘弦相似度計算每個查詢嵌入與所有文檔嵌入之間的相似度得分。
- 根據相似度得分對文檔進行排序,並檢查排名第一的文檔是否與給定查詢相對應。
結果
- APEX-Embedding-7B 在 rank@1 檢索準確性方面表現出顯著提高,超過現有最先進模型 6.26%(達到 90.86%)。
- 與純文本相比,訓練期間的輸入上下文大小減少了 37.71%。
結論
APEX-Embedding-7B 為提高 RAG 中需要高精度和實際可擴展性的文件檢索系統的準確性提供了一種有前景的方法。
統計資料
APEX-Embedding-7B 在 rank@1 檢索準確性方面達到 90.86%,超過現有最先進模型 6.26%。
與純文本相比,訓練期間的輸入上下文大小減少了 37.71%。
訓練過程使用了 4 位 QLoRA 技術,有效批次大小為 10,梯度累積步數為 2。
訓練在單個 40GB NVIDIA A100 GPU 上進行,耗時約 13 小時。
引述
"By advancing text feature extraction in RAG systems, our proposed model provides a powerful solution for improving retrieval accuracy, ensuring factual precision, and streamlining information extraction in large document-heavy industries such as real estate."
"This combined methodology yields significant improvements, enhancing plain text query/document pair retrieval to achieve an absolute rank@1 accuracy of 90.86% (an increase of 6.26% compared to the next leading model) in our evaluation, and reducing training data input context size by an average of 37.71% compared to plain text for both queries and document texts."