本論文では、大規模パーソナライズ型Eコマース検索システムのための効率的な生成型リトリーバル手法「Hi-Gen」を提案している。
まず、表現学習モデルとメトリック学習を組み合わせて、アイテムの意味的関連性と効率性の両方の情報を捉えた識別的な特徴表現を学習する。次に、カテゴリガイド階層的クラスタリングを用いて、意味的情報と効率性情報を活用してdocIDを生成する。さらに、位置情報の重要性を識別し、同一位置の異なるトークン間の関係性を活用するための位置認識損失関数を提案する。
また、オンラインでの大規模リコールを実現するため、Hi-Gen-I2IとHi-Gen-Clusterの2つのバリアントを提案している。Hi-Gen-I2Iは、言語モデルで生成したdocIDを起点にアイテム間関連性を活用してリコールを拡張する。Hi-Gen-Clusterは、docIDの階層構造情報を活用して効率的にリコールを拡張する。
実験の結果、Hi-Genは公開データセットおよび業界データセットで最先端の性能を示し、大規模EコマースプラットフォームでのオンラインABテストでも高い効果を発揮することが確認された。特に、ゼロショット学習シナリオでも優れた一般化性能を発揮することが示された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yanjing Wu,Y... um arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15675.pdfTiefere Fragen