Counterfactual learning to rank (CLTR) models aim to learn unbiased ranking models from biased user interaction data. This study investigates the robustness of existing CLTR models under various simulation settings, including different production rankers and user simulation models.
Counterfactual Learning-to-Rank-Modelle (CLTR) zeigen unterschiedliche Robustheit unter verschiedenen Simulationseinstellungen. Die DLA-Modelle und IPS-DCM sind robuster als IPS-PBM und PRS mit offline-Propensitätsschätzung, insbesondere wenn der Produktionsranker eine relativ hohe Rankingleistung oder Zufälligkeit aufweist.