核心概念
相較於傳統排序學習方法中常用的基於點擊與跳過的配對資料構建策略,以點擊與未瀏覽結果構建訓練資料更適用於語意嵌入模型的訓練,有效提升搜尋結果的品質。
模型介紹
本研究探討不同配對判斷式構建策略對語意嵌入模型在網頁搜尋效能的影響。語意嵌入模型 (SEM) 是一種基於神經網路的 Siamese 架構,用於學習查詢和網頁標題的語意向量表示,進而計算兩者間的相似度並用於排序。
模型訓練
SEM 模型的訓練資料為配對判斷式,每個判斷式包含一個查詢、一個偏好網頁標題和一個非偏好網頁標題。模型訓練目標是最大化查詢與偏好標題間的相似度,同時最小化查詢與非偏好標題間的相似度。
研究提出並比較多種配對判斷式構建策略,包含:
原子策略:
點擊 > 跳過:假設點擊結果優於跳過結果。
點擊 > 點擊:比較點擊率差異,假設高點擊率結果優於低點擊率結果。
點擊 > 未瀏覽:假設點擊結果優於未瀏覽結果。
跳過 > 未瀏覽:假設跳過結果優於未瀏覽結果。
混合策略:
點擊 > 非點擊:結合點擊 > 跳過和點擊 > 未瀏覽兩種策略。