核心概念
大規模Eコマース検索システムにおいて、効率的な生成型リトリーバル手法を提案し、セマンティックな関連性と効率性の両方の情報をドキュメント識別子(docID)に組み込むことで、検索精度と効率を向上させる。
摘要
本論文では、大規模パーソナライズ型Eコマース検索システムのための効率的な生成型リトリーバル手法「Hi-Gen」を提案している。
まず、表現学習モデルとメトリック学習を組み合わせて、アイテムの意味的関連性と効率性の両方の情報を捉えた識別的な特徴表現を学習する。次に、カテゴリガイド階層的クラスタリングを用いて、意味的情報と効率性情報を活用してdocIDを生成する。さらに、位置情報の重要性を識別し、同一位置の異なるトークン間の関係性を活用するための位置認識損失関数を提案する。
また、オンラインでの大規模リコールを実現するため、Hi-Gen-I2IとHi-Gen-Clusterの2つのバリアントを提案している。Hi-Gen-I2Iは、言語モデルで生成したdocIDを起点にアイテム間関連性を活用してリコールを拡張する。Hi-Gen-Clusterは、docIDの階層構造情報を活用して効率的にリコールを拡張する。
実験の結果、Hi-Genは公開データセットおよび業界データセットで最先端の性能を示し、大規模EコマースプラットフォームでのオンラインABテストでも高い効果を発揮することが確認された。特に、ゼロショット学習シナリオでも優れた一般化性能を発揮することが示された。
統計資料
提案手法Hi-Genは、公開データセットAOL4PSでRecall@1を3.30%、Recall@10を4.62%向上させた。
業界データセットAEDSTでは、Recall@1を4.62%、Recall@50を25.87%、Recall@100を28.37%向上させた。
オンラインABテストでは、リコール数を6.89%、GMVを1.42%向上させた。
引述
"Hi-Gen encodes efficient and semantic information during docID generation meanwhile concurrently making full use of positional information during the decoding stage."
"Hi-Gen-I2I rapidly expands generative retrieval results with item-to-item (I2I) recall algorithms, which are commonly used in modern search and recommendation systems."
"Hi-Gen-Cluster exploits the hierarchical structure information encoded in docID by truncating the decoded result early in decoding to bring in large-scale recall."