核心概念
本文提出了一種能夠在有限訓練數據和相對複雜的語言特徵的情況下有效運行的查詢重寫解決方案。
要約
本文主要探討了在電子商務搜索中實現查詢重寫(QR)的可擴展性和可擴展性問題。
-
查詢重寫是指利用熱門查詢的行為模式來改善冷門查詢的搜索相關性。然而,對於小型市場或新興企業而言,由於缺乏足夠的歷史客戶行為數據,實現QR的挑戰很大。
-
本文提出了一系列改進措施來解決這一問題,包括:
- 通過引入樣本重要性度量來優化模型訓練目標,以更好地利用有限的訓練數據。
- 將硬負樣本挖掘集成到重排模型的訓練中,以提高模型在複雜場景下的性能。
- 引入查詢正規化步驟,以減少訓練數據中的噪音,並擴大低流量查詢的覆蓋範圍。
-
通過離線評估和線上A/B測試,驗證了上述方法的有效性。在日本和印度市場的搜索排名應用中,分別獲得了0.14%和0.29%的整體收入增長;在日本市場的搜索廣告匹配應用中,獲得了0.36%的廣告收入增長。這些結果表明,該解決方案在可擴展性和可擴展性方面都有顯著優勢。
統計
引入樣本重要性度量後,召回率@100提高了5.4%。
結合硬負樣本挖掘,召回率@100進一步提高了7.9%。
在人工審核中,引入上述方法後,模型在嚴格相關和非相關查詢對的AUROC分別從0.51提高到0.79和0.74。
引用
"在資源有限的情況下,單純刪除部分相關性較低的查詢對可能會損害模型的訓練效果。"
"實際使用重排模型的端到端推理過程更接近於硬負樣本場景,因此僅依賴配對查詢進行評估可能會產生誤導性比較。"
"有效處理硬負樣本是QR實踐成功的關鍵組成部分。"