核心概念
本文提出了一個名為 LLM4PR 的新型框架,利用大型語言模型 (LLM) 來改進搜尋引擎中的後排序階段,通過克服異構特徵輸入和任務規範等挑戰,有效提升搜尋結果的品質和使用者體驗。
摘要
論文概述
本論文介紹了一種名為 LLM4PR 的新型框架,該框架利用大型語言模型 (LLM) 來改進搜尋引擎中的後排序階段。傳統搜尋引擎在匹配和排序後,往往忽略了使用者滿意度和項目間相互影響等因素。LLM4PR 框架旨在解決這些問題,通過整合異構特徵並學習後排序任務,生成更符合使用者偏好的最終結果列表。
主要組成部分
LLM4PR 框架主要由查詢指令適配器 (QIA) 和骨幹 LLM 組成。
- QIA:利用注意力機制融合使用者的查詢和多種特徵(例如 ID、性別、歷史行為等),生成單一向量表示,解決了異構特徵輸入的問題。
- 特徵適配步驟:通過模板生成任務,將 QIA 生成的使用者/項目表示與 LLM 的語義進行對齊,使 LLM 能夠理解這些表示。
- 學習後排序步驟:設計了主任務和輔助任務來微調 LLM4PR,使其學習後排序任務。主任務指導 LLM4PR 生成目標後排序順序,而輔助任務則通過比較候選列表對,幫助模型判斷列表品質。
實驗結果
實驗結果表明,LLM4PR 在資訊檢索和搜尋資料集上均優於現有方法,證明了其在提升搜尋引擎後排序效能方面的有效性。
主要貢獻
- 首次提出基於 LLM 的搜尋引擎後排序框架 LLM4PR。
- 提出了 QIA 和特徵適配步驟,解決了異構特徵輸入和語義對齊問題。
- 引入了學習後排序步驟,有效提升了模型的後排序能力。
總結
LLM4PR 框架為提升搜尋引擎使用者體驗提供了一種新的思路,其有效性和效率在實驗中得到了驗證。未來,研究者可以進一步探索 LLM 在其他搜尋相關任務中的應用。
統計資料
與僅將所有特徵串聯成單一句子作為 LLM 輸入的方法相比,LLM4PR 在 MovieLens 和 KuaiSAR 資料集上的推理時間成本分別降低了 1.7 倍和 3.0 倍。
在 KuaiSAR 資料集中,PTPR 的輸入標記數是 LLM4PR 的 23 倍。
使用高品質特徵嵌入訓練的 LLM4PR 模型表現最佳,但即使使用中等或低品質的嵌入,LLM4PR 依然能提供具有競爭力的結果。