Staudinger, M., Kusa, W., Piroi, F., Lipani, A., & Hanbury, A. (2024). A Reproducibility and Generalizability Study of Large Language Models for Query Generation. In Proceedings of the 2024 Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region (SIGIR-AP ’24), December 9–12, 2024, Tokyo, Japan. ACM, New York, NY, USA, 11 pages. https://doi.org/10.1145/3673791.3698432
本研究旨在探討使用大型語言模型 (LLM) 自動生成系統評價 (SLR) 布林查詢的可複製性和泛化性。
研究人員嘗試複製 Wang 等人 (2023) 和 Alaniz 等人 (2024) 的研究,使用 ChatGPT 和其他開源 LLM(如 Mistral 和 Zephyr)生成布林查詢,並在 PubMed 資料庫上執行這些查詢。他們使用 Precision、Recall 和 F1-score 等指標評估查詢效能。
雖然 LLM 在自動生成布林查詢方面顯示出潛力,但仍存在一些限制。查詢生成結果的可變性、確保可靠性和對召回率的影響是需要解決的關鍵問題。
本研究強調了在將 LLM 應用於資訊檢索任務時,需要嚴謹的驗證和改進。
未來研究應側重於開發更強大的提示策略、提高查詢生成結果的一致性,並探索提高召回率的方法。此外,還需要對其他 LLM 和資料集進行更廣泛的評估。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询