Core Concepts
本研究では、各文書をエージェントとみなし、協調的な多エージェント強化学習を用いることで、検索結果の多様性を直接最適化することができる。
Abstract
本研究では、検索結果の多様性確保問題を多エージェント部分観測マルコフ決定過程(Dec-POMDP)として定式化し、MA4DIVと呼ばれる新しい手法を提案した。
具体的には以下の通り:
各文書をエージェントとみなし、協調的な多エージェント強化学習を行う。
各エージェントは文書の特徴量と検索クエリの情報を観察し、文書のランキングスコアを選択する。
全エージェントの選択したスコアを用いて、文書をランキングする。
最終的なランキング結果の多様性を示す指標(α-NDCG)を報酬関数として、エージェントのスコア選択を最適化する。
多エージェントの協調的な学習を実現するため、value decomposition手法を用いる。
実験の結果、MA4DIVは既存手法と比べて、TREC公開データセットおよび大規模な産業データセットにおいて、多様性指標の向上と学習効率の改善を示した。
Stats
検索クエリの数は、TREC公開データセットが198件、DU-DIV産業データセットが4473件
TREC公開データセットの文書数は平均211件、DU-DIV産業データセットの文書数は各クエリ15件
TREC公開データセットの文書は最大7つのサブトピックを含み、DU-DIV産業データセットの文書は50個のサブトピックの1つ以上を含む
TREC公開データセットの文書表現はDoc2vecの100次元ベクトル、DU-DIV産業データセットの文書表現はBERTの1024次元ベクトル