Core Concepts
長文ユーザー行動データを効率的に処理するためのBAHE手法を提案し、LLMベースのCTR予測モデルの効率と性能を大幅に向上させる。
Abstract
本研究は、長文ユーザー行動データを効率的に処理するためのBAHE手法を提案している。
- 従来のLLMベースのCTR予測モデルでは、長文ユーザー行動データの処理効率が課題となっていた。
- BAHEは、ユーザー行動の表現抽出とユーザー行動間の相互作用のモデル化を階層的に分離することで、この課題を解決する。
- 具体的には、まず事前学習済みLLMの浅層部分を使ってユーザー行動の基本表現を抽出・保存し、その後LLMの深層部分でユーザー行動間の相互作用をモデル化する。
- これにより、ユーザー行動の重複エンコーディングを防ぎ、入力シーケンス長を大幅に削減できる。
- 実験結果から、BAHEはLLMベースのCTR予測モデルの学習時間を5倍以上短縮し、メモリ使用量も6分の1に削減できることが示された。
- さらに、BAHEを実際の大規模産業システムに適用し、1日あたり5000万件のCTRデータを8基のA100 GPUで更新できるようになった。
Stats
ユーザー行動シーケンスの長さが1024の場合、BAHEはベースラインと比べて学習時間を928時間から164時間に、メモリ使用量を75.4GBから12.6GBに削減した。
ユーザー行動シーケンスの長さが2048の場合、BAHEはベースラインと比べて学習時間を928時間から164時間に、メモリ使用量を75.4GBから12.6GBに削減した。
Quotes
"長文ユーザー行動データを効率的に処理することは、LLMベースのCTR予測モデルの実用化にとって重要な課題である。"
"BAHEは、ユーザー行動の表現抽出とユーザー行動間の相互作用のモデル化を階層的に分離することで、この課題を解決する。"
"実験結果から、BAHEはLLMベースのCTR予測モデルの学習時間を5倍以上短縮し、メモリ使用量も6分の1に削減できることが示された。"