Core Concepts
アプリ開発者の直感とプロのアノテーターの直感の2つの観点から、アプリ画像とキーワード検索の最適なマッチングを自動的に行うモデルを提案する。
Abstract
本研究では、アプリ開発者がアプリを宣伝する際に使用する画像と、ユーザーがアプリを検索する際に使用するキーワードの間の関係を自動的に学習するモデルを提案している。
具体的には以下の通り:
アプリ開発者が定義したアプリに関連するキーワードのセットK、およびアプリ画像の候補プールMが与えられる
キーワードkとアプリ画像mの組み合わせに対して、そのマッチング度合いR(k, m)を二値分類問題としてモデル化する
事前学習済みの cross-modal 画像-テキストマッチングアーキテクチャ(LXMERT)をベースに、自社の(キーワード、アプリ画像、ラベル)データセットでファインチューニングを行う
2つの評価データセット(アプリ開発者の直感、プロのアノテーターの直感)で評価した結果、従来手法よりも8-17%高いAUCを達成した
この手法により、アプリ開発者が自動的に最適なアプリ画像を選択できるようになり、ユーザーにとってもより関連性の高いアプリが表示されるようになる。
Stats
アプリ開発者の直感に基づく評価データセットでのAUC: 0.96
プロのアノテーターの直感に基づく評価データセットでのAUC: 0.95