toplogo
Sign In

NineRec: A Benchmark Dataset Suite for Evaluating Transferable Recommendation


Core Concepts
TransRec models face challenges due to the lack of large-scale, high-quality transfer learning recommendation datasets. NineRec aims to address this obstacle by providing a diverse dataset suite for TransRec models.
Abstract
Large foundational models have seen success in AI, but transferable recommender systems like TransRec lag behind. NineRec introduces a dataset suite with source and target domain datasets for robust TransRec benchmarking. Challenges include the dominance of ID-based collaborative filtering models and the scarcity of large-scale multimodal pre-trained recommendation datasets. NineRec offers diverse content types like short videos, news, and images for studying multimodal content-focused recommendation. The dataset construction process involved collecting data from various channels over 10 months.
Stats
大規模なソースドメインデータセット(200万ユーザー、14.4万アイテム、2400万ユーザーアイテム相互作用)を含むNineRec。 ダウンストリームのBili *データセットは、5つの垂直チャンネルから収集されたものであり、ソースデータセットとオーバーラップしていない。 NineRecデータセットには、各アイテムが元の説明文と高解像度のカバー画像で表現されている。
Quotes
"Large foundational models have achieved immense success in AI, but transferable one-for-all models in the recommender system field have made limited progress." "NineRec is the first large-scale and highly diverse dataset for streaming content recommendation." "To facilitate future research, we release our code, datasets, benchmarks, and leaderboard."

Key Insights Distilled From

by Jiaqi Zhang,... at arxiv.org 03-19-2024

https://arxiv.org/pdf/2309.07705.pdf
NineRec

Deeper Inquiries

質問1

NineRec以外の大規模な転移学習推薦データセットの不足をどのように解決できますか? 回答1:NineRecは転移可能な推薦システム向けの大規模なデータセットとして重要ですが、さらに多様性や規模の異なる他のデータセットも必要です。この問題を解決するためには、以下の方法が考えられます。 産業界やアカデミアからさらに多くのリアルワールド・データを収集し、公開する取り組みを促進します。 多様な領域や文化背景から得られるデータソースを活用し、異なる分野間で共通した特徴量やパターンを見つけ出すことが重要です。 オープンソースコミュニティーに呼びかけて、協力して新たな大規模推薦システム用データセットを作成する取り組みが必要です。

質問2

TransRecモデルでは、純粋な形式素材だけに依存することが及ぼす影響は何ですか? 回答2:TransRecモデルが純粋な形式素材だけに依存する場合、いくつかの重要な影響があります。例えば: 素材特徴量だけから学習されたモデルは一般的に適応性や柔軟性が低く、特定ドメイン内でしか有効ではありません。 テキストまたは画像表現だけでは利用者行動全体を捉えきれず、他の重要情報(価格情報等)も考慮しない場合、「冷静」また「暖戻り」シナリオでもIDRecより優位性示すこと難しい。

質問3

NineRecから得られる知見は推奨システム分野で普遍的基盤モデル開発へどう影響しますか? 回筡3:NineRecから得られる知見は次世代普遍的基盤推奨システム開発上非常に意義深い。具体的影饗点: NineRec提供した幅広い多様内容および高品質映像/文章素材使ってE2E Transrec訓練手法採用時,旧来ID-based Recs超越能力明確化されました。 NineREC宛てて行われた評価結果今後RSコマニチー内部およ外部技術者方向指針役割担います。これ将来普遍型基盤RS开发上貴重参考資料提供します。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star