المفاهيم الأساسية
本文介紹了IRLab團隊參與TREC iKAT 2024對話式搜尋評測的系統和結果,重點探討了利用多面向大型語言模型生成查詢,並結合學習稀疏檢索技術來提升對話式搜尋效能的方法。
الملخص
IRLab@iKAT24 參與報告:對話式搜尋系統設計與評估
簡介
此報告概述了阿姆斯特丹大學IRLab團隊參與 TREC iKAT 2024 對話式搜尋評測的系統和結果。團隊專注於自動化運行,這是最具挑戰性的運行類型,並在一定程度上關注手動運行。
系統設計
該系統的核心是 MQ4CS 架構,並進行了一些修改以增強其效能。主要元件包括:
- **多面向查詢生成:**利用大型語言模型(LLM),特別是 GPT-4,根據對話上下文和使用者個人資訊生成多個查詢,涵蓋資訊需求的不同面向。
- **排序融合:**不同於 MQ4CS 中的交叉排序策略,團隊提出僅使用多個生成的查詢進行檢索,然後使用單一查詢重寫對所有檢索到的段落進行重新排序。
- **檢索和重排序:**採用 SPLADE 架構進行學習稀疏檢索,並使用強大的交叉編碼器模型(DebertaV3 或集成模型)進行重排序。
主要發現
- 多面向查詢生成與進階檢索和重排序模型相結合,可以有效提升效能。
- 自動化運行在 nDCG、MRR、P@20 和 mAP 指標上優於手動運行,顯示基於 LLM 的查詢重寫的潛力。
- 集成多個重排序器可以進一步提升效能。
- 對話深度對效能的影響與先前研究結果不同,隨著對話的進行,nDCG 指標呈現上升趨勢,這可能與 PTKB 和個人化任務相關。
- 不同主題的對話難度存在差異。
總結
IRLab 團隊展示了 MQ4CS 架構在 iKAT 2024 評測中的有效性,並證明了結合學習稀疏檢索和進階交叉編碼器模型可以帶來進一步的效能提升。未來的研究方向包括更深入地比較不同查詢生成和排序融合策略的影響。
الإحصائيات
在 Recall@100 指標上,使用多個查詢的系統比使用單一查詢的系統提升了 2.3 個百分點。
在 mAP 指標上,使用多個查詢的系統比使用單一查詢的系統提升了 3.2 個百分點。
在 nDCG@5 指標上,使用多個查詢的系統比使用單一查詢的系統提升了 1.5 個百分點。
在 nDCG 指標上,使用多個查詢的系統比使用單一查詢的系統提升了 6.8 個百分點。
اقتباسات
"Our findings indicate that multi-aspect query generation is effective in enhancing performance when integrated with advanced retrieval and reranking models."
"Our results also lead the way for better personalization in Conversational Search, relying on LLMs to integrate personalization within query rewrite, and outperforming human rewrite performance."