本文提出了QAEncoder,一種無需訓練的方法來解決問答系統中問題和相關文檔之間的語義差距問題。
提出了"圓錐分佈假設",即對於一個給定的文檔,其潛在問題在語義空間中大致形成一個簇,而文檔的嵌入位於垂直於該簇的直線上。因此,可以使用簇中心作為文檔嵌入的代理。
為了解決這種方法可能導致的文檔可區分性降低的問題,提出了三種文檔指紋策略:嵌入指紋、文本指紋和混合指紋。這些策略可以有效地保持文檔的獨特性。
在14種嵌入模型、6種語言和8個數據集上進行了廣泛的實驗,驗證了QAEncoder在對齊能力方面的優越性。它可以與現有的檢索增強生成(RAG)架構和基於訓練的方法無縫集成,提供了一種即插即用的解決方案。
與基於訓練的方法和基於文檔的方法相比,QAEncoder避免了額外的索引存儲、檢索延遲、訓練成本和幻覺,並確保了強大的泛化能力和多樣化的問題處理。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문