toplogo
登入

利用實體關係圖和模型感知對比抽樣提高文件檢索的嵌入準確性


核心概念
本文介紹了一種名為 APEX-Embedding-7B 的新型文本特徵提取模型,該模型專為文件檢索增強生成 (RAG) 任務而設計,採用結構化實體關係圖和模型感知對比抽樣等訓練技術,顯著提高了長文本文件檢索任務的準確性。
摘要

APEX-Embedding-7B 模型介紹

本文介紹了一種名為 APEX-Embedding-7B 的新型文本特徵提取模型,該模型專為文件檢索增強生成 (RAG) 任務而設計。

模型訓練技術

該模型採用了兩種主要的訓練技術:

  1. 基於結構化實體關係圖的預收斂中斷微調:
    • 使用從真實文件中提取的結構化實體關係圖作為訓練數據,將模型的注意力引導至事實性內容,而非語義風格。
    • 在模型完全收斂於結構化數據之前中斷微調過程,防止過擬合併保持其處理純文本的能力。
  2. 模型感知對比抽樣:
    • 根據基礎模型的嵌入能力選擇和組織負面樣本,提高檢索準確性並減少訓練所需的大批量數據。
    • 將負面樣本分為與查詢語義相似但事實不正確的“軟負面樣本”和與查詢語義差異較大的“硬負面樣本”。
    • 在訓練過程中平衡軟負面樣本和硬負面樣本的比例,幫助模型學習更精確的事實區分。

模型架構

APEX-Embedding-7B 是一個基於“SFR-Embedding-2-R”的解碼器模型,並進行了以下改進:

  • 在訓練過程中使用結構化實體關係圖,以提高嵌入的事實準確性。
  • 保留因果注意力掩碼,但在預收斂前中斷微調,以平衡事實重點和保持對純文本任務的強大性能。

數據集生成

  • 使用從各種公開來源中提取的數万個經過整理的文件片段和全文頁面構建了一個自定義數據集。
  • 使用 GPT-4o 生成模擬真實世界信息檢索任務的綜合用戶查詢。
  • 使用 GPT-4o 生成結構化實體關係圖,捕捉文本中的關鍵實體及其關係。

模型評估

  • 使用包含 1,500 個查詢及其相應文檔的評估數據集,這些數據集模型之前未見過。
  • 使用餘弦相似度計算每個查詢嵌入與所有文檔嵌入之間的相似度得分。
  • 根據相似度得分對文檔進行排序,並檢查排名第一的文檔是否與給定查詢相對應。

結果

  • APEX-Embedding-7B 在 rank@1 檢索準確性方面表現出顯著提高,超過現有最先進模型 6.26%(達到 90.86%)。
  • 與純文本相比,訓練期間的輸入上下文大小減少了 37.71%。

結論

APEX-Embedding-7B 為提高 RAG 中需要高精度和實際可擴展性的文件檢索系統的準確性提供了一種有前景的方法。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
APEX-Embedding-7B 在 rank@1 檢索準確性方面達到 90.86%,超過現有最先進模型 6.26%。 與純文本相比,訓練期間的輸入上下文大小減少了 37.71%。 訓練過程使用了 4 位 QLoRA 技術,有效批次大小為 10,梯度累積步數為 2。 訓練在單個 40GB NVIDIA A100 GPU 上進行,耗時約 13 小時。
引述
"By advancing text feature extraction in RAG systems, our proposed model provides a powerful solution for improving retrieval accuracy, ensuring factual precision, and streamlining information extraction in large document-heavy industries such as real estate." "This combined methodology yields significant improvements, enhancing plain text query/document pair retrieval to achieve an absolute rank@1 accuracy of 90.86% (an increase of 6.26% compared to the next leading model) in our evaluation, and reducing training data input context size by an average of 37.71% compared to plain text for both queries and document texts."

深入探究

如何將 APEX-Embedding-7B 模型應用於其他需要高事實準確性的領域,例如醫療保健或法律?

APEX-Embedding-7B 模型的設計理念,特別強調提升事實準確性,使其非常適合應用於醫療保健和法律等高度重視事實資訊的領域。以下說明如何應用於這些領域: 醫療保健: 病歷檢索: APEX-Embedding-7B 可以用於建立更精確的病歷檢索系統。透過將病歷轉換為結構化實體關係圖,模型可以更準確地理解病患的醫療歷史、診斷和治療方案,從而協助醫生做出更明智的決策。 醫學研究: 在醫學研究中,APEX-Embedding-7B 可以用於從大量的研究論文和臨床試驗數據中提取關鍵資訊。模型可以識別關鍵實體(如藥物、疾病和基因)之間的關係,加速新藥開發和疾病治療方法的研究。 藥物不良反應監測: APEX-Embedding-7B 可以用於分析大量的醫療記錄和報告,以識別潛在的藥物不良反應。模型可以學習識別藥物和不良反應之間的關聯,幫助監管機構和製藥公司更早地發現並採取行動。 法律: 法律文件檢索: APEX-Embedding-7B 可以用於建立更精確的法律文件檢索系統,例如判例法搜索引擎。透過將法律文件轉換為結構化實體關係圖,模型可以更準確地理解法律條文、判例和法律論點,從而協助律師、法官和法律學者更有效率地找到相關資訊。 合約分析: APEX-Embedding-7B 可以用於分析合約條款,識別潛在的風險和機會。模型可以學習識別關鍵實體(如當事人、標的物和條款)之間的關係,幫助律師和企業更有效率地審查和協商合約。 法律盡職調查: 在併購、投資等交易中,APEX-Embedding-7B 可以用於進行法律盡職調查,從大量的法律文件中識別潛在的法律風險。 關鍵應用技巧: 領域特定數據: 使用醫療保健或法律領域的數據對模型進行微調,可以進一步提高模型在這些領域的效能。 結構化實體關係圖的設計: 針對特定任務設計適當的結構化實體關係圖,對於模型的效能至關重要。 人工審查: 由於醫療保健和法律領域的決策至關重要,因此在應用模型時,人工審查仍然是不可或缺的環節。

如果訓練數據集中存在偏差,APEX-Embedding-7B 模型的效能會受到什麼影響?

如同其他深度學習模型,APEX-Embedding-7B 的效能會受到訓練數據集中偏差的影響。如果訓練數據集中存在偏差,模型可能會學習到這些偏差,並在應用時產生不準確或不公平的結果。 以下是一些訓練數據集中偏差可能造成的影響: 放大現有偏差: 模型可能會放大訓練數據集中存在的偏差。例如,如果訓練數據集中包含較多關於男性醫生的資訊,模型可能會在檢索醫療資訊時,優先顯示男性醫生的資料。 產生新的偏差: 模型可能會學習到訓練數據集中未明顯呈現的偏差。例如,如果訓練數據集中某些特定族裔的病患,其醫療記錄的撰寫方式較為負面,模型可能會將這種負面關聯性應用到所有該族裔的病患身上。 降低模型的整體準確性: 訓練數據集中的偏差可能會降低模型在處理未見過數據時的準確性。 以下是一些減輕訓練數據集中偏差影響的方法: 數據平衡: 確保訓練數據集中不同群體的數據量均衡,例如不同性別、年齡、種族和社會經濟背景的數據。 數據增強: 使用數據增強技術,可以增加訓練數據集中少數群體的數據量,例如透過翻譯、轉述或生成新的數據。 偏差檢測和修正: 使用偏差檢測工具來識別訓練數據集中的偏差,並使用偏差修正技術來減輕偏差的影響。 模型評估和監控: 在不同的數據集上評估模型的效能,特別是在代表性不足的群體上,並持續監控模型在實際應用中的表現,以及時發現並修正偏差問題。

如何評估 APEX-Embedding-7B 模型在處理多語言或跨語言文件檢索任務方面的表現?

評估 APEX-Embedding-7B 模型在處理多語言或跨語言文件檢索任務方面的表現,需要採用特定的評估方法和指標。以下是一些可行的方法: 1. 使用多語言或跨語言數據集: 選擇包含多種語言或跨語言數據的公開基準數據集,例如: MIRACL: 多語言資訊檢索評測語料庫,包含多種語言的新聞文章和查詢。 SemEval: 語義評估研討會,提供多種跨語言任務的數據集,例如跨語言文本相似度和跨語言資訊檢索。 XTREME: 跨語言遷移評估,包含多種語言理解任務的數據集,例如跨語言分類和跨語言問答。 建立自己的多語言或跨語言數據集,包含與目標領域相關的文本和查詢。 2. 評估指標: 使用標準的資訊檢索評估指標,例如: 平均精度均值 (MAP):衡量模型在所有查詢中检索相关文档的平均性能。 正規化折現累計增益 (NDCG):考慮文档排序的评估指标,排名越高,相关性越高的文档得分越高。 Recall@K: 衡量模型在检索到的前 K 个文档中找到所有相关文档的比例。 針對跨語言任務,可以使用以下指標: 跨語言检索准确率 (CLIR Accuracy):衡量模型在使用一种语言的查询检索另一种语言的文档时的准确率。 跨語言平均精度均值 (CLIR MAP):衡量模型在所有跨語言查詢中检索相关文档的平均性能。 3. 評估方法: 零樣本跨語言遷移 (Zero-Shot Cross-Lingual Transfer): 使用模型在一种语言上训练的模型,直接在另一种语言上进行评估,无需任何跨语言训练数据。 少樣本跨語言遷移 (Few-Shot Cross-Lingual Transfer): 使用少量跨语言数据对模型进行微调,然后在目标语言上进行评估。 多語言微調 (Multilingual Fine-tuning): 使用多语言数据对模型进行微调,然后在目标语言上进行评估。 4. 其他考量因素: 語言資源: 評估模型在資源豐富和資源稀缺語言上的表現差異。 領域差異: 評估模型在不同領域(例如新聞、法律、醫療保健)的跨語言檢索表現。 文化差異: 考慮不同文化背景下,語言表達和資訊需求的差異。 透過以上評估方法和指標,可以更全面地了解 APEX-Embedding-7B 模型在處理多語言或跨語言文件檢索任務方面的表現,並針對特定應用場景進行優化。
0
star