Concepts de base
雖然重排序器通常被認為可以提升資訊檢索的品質,但本研究發現,當擴展到對大量文件進行重排序時,現有的重排序器會出現效能顯著下降的情況,甚至可能不如單獨使用檢索器。
論文資訊
Jacob, M., Lindgren, E., Zaharia, M., Carbin, M., Khattab, O., & Drozdov, A. (2024). Drowning in Documents: Consequences of Scaling Reranker Inference. arXiv preprint arXiv:2411.11767v1.
研究目標
本研究旨在探討在現代資訊檢索系統中,擴展不同重排序器的推論計算量如何影響檢索結果的品質。
研究方法
研究人員選用多個開源和商業的詞嵌入模型和重排序器,並以精心挑選的學術和企業資料集進行測試。
他們測試了在不同規模的文件集上進行重排序時,重排序器的效能表現,特別是召回率(Recall)。
此外,他們還比較了在完整資料集上進行檢索時,重排序器和詞嵌入模型的效能差異。
主要發現
研究發現,對於現代的交叉編碼器(cross-encoder)而言,擴展推論計算量(即對更多文件進行重排序)最終会导致召回率顯著下降。
在完整資料集檢索(不使用重排序)的情況下,現代詞嵌入模型的效能優於交叉編碼器。
使用大型語言模型進行列表式重排序(listwise reranking)的效能優於使用交叉編碼器進行點狀式重排序(pointwise reranking)。
主要結論
現有的重排序器在處理大量文件時存在顯著的效能問題,甚至可能不如單獨使用檢索器。
大型語言模型在列表式重排序方面展現出潛力,可以作為提升交叉編碼器效能的訓練目標,或直接作為重排序器使用。
研究意義
本研究揭示了當前重排序器在實際應用中存在的問題,並為未來改進重排序器效能提供了方向。
研究限制與未來方向
本研究中使用的一些模型是閉源的,研究人員無法獲得訓練資料、模型架構和模型大小等資訊。
未來可以進一步探討不同訓練策略、訓練資料分佈和模型大小對重排序器效能的影響。
Stats
在許多情況下,當重排序的文件數量 (K) 超過 100 時,重排序器的召回率@10 會顯著下降。
在某些情況下,當在完整資料集上進行評估時,重排序器的準確性低於檢索器。
使用 gpt-4o-mini 進行列表式重排序在學術和企業資料集上的召回率@10 均優於其他重排序器。