核心概念
本文提出了一個基於大型語言模型 (LLM) 的新型檢索-重排序框架,用於增強新聞文章和網路帖子中描述的異常氣候和環境事件的時空和語義關聯挖掘和推薦。
摘要
論文概述
本研究論文提出了一個基於大型語言模型 (LLM) 的新型檢索-重排序框架,旨在增強新聞文章和網路帖子中描述的異常氣候和環境事件的時空和語義關聯挖掘和推薦。
研究背景
氣候變遷對全球生態系統和人類社會產生了深遠的影響,透過大量的環境事件展現出來。這些事件涵蓋範圍廣泛,從極端天氣現象到逐漸的生態演替,影響著不同時間尺度上的各個地區。調查類似的環境事件對於分享觀察結果、提高認識、預測風險、估計異常事件的發生頻率、從過去的事件中吸取教訓以及制定應對氣候變遷的策略至關重要。
研究方法
框架概述
該框架分為兩個相互關聯的階段:檢索和重排序。
- 檢索階段利用 LLM 嵌入模型,根據語義檢索與查詢初步相關的事件集合。
- 重排序階段採用 Geo-Time Re-ranking (GT-R) 模型,該模型通過融合語義和時空特徵的得分來重新評估初步集合,評估每個候選事件的相關性。
特徵建構
- 語義相似度:利用 LLM 嵌入模型捕捉文本中隱藏的關係,實現對內容語義更豐富、更準確的表示。
- 類別相似度:結合類別標籤和實體提取,透過提示工程和人工參與,更精確地建立事件之間的語義聯繫。
- 時空相關性:
- 距離相關性:基於地理學第一定律,利用 Haversine 公式計算事件對之間的距離,優先考慮特定距離內的事件。
- 緯度相關性:考慮到氣候、天氣模式、物種分佈和行為通常與緯度梯度相關,引入緯度增強器,以提高具有相似緯度特徵的事件的相關性。
- 時間相關性:採用一年中的哪一天作為時間度量標準,以更好地反映環境事件的週期性,並根據季節時間安排對事件進行重新排序。
特徵組合和排序融合
採用凸組合方法和倒數排序融合 (RRF) 將不同的特徵合成為最終的排序列表。
實驗設計
- 資料集:使用來自本地環境觀察者 (LEO) 網路的時空事件資料集,其中包含 1,000 個查詢事件,每個事件都鏈接到相關事件。
- 評估指標:採用召回率、命中率、歸一化折損累計增益 (nDCG) 和平均倒數排名 (MRR) 來評估模型性能。
研究結果
該框架在推薦相似事件方面取得了最佳性能,證明了其在環境事件推薦方面的有效性。
研究貢獻
- 提出了一個基於 LLM 的兩階段搜索和推薦框架,專為分析時空事件而設計。
- 引入了 LLM 的創新用途,通過零樣本命名實體識別來增強事件的類別特徵。
- 提出並開發了 GT-R 模型,這是一種新穎的重排序解決方案,它將語義理解與地理和時間相關性相結合。
- 提供了經验证據,證明了所提出的框架與現有的密集檢索和尖端重排序模型相比具有優越的性能。
研究意義
該研究結果強調了 LLM 在通過時空視角轉變推薦系統方面的潛力,並為環境資訊學和氣候變遷適應策略的發展做出了貢獻。
統計資料
研究使用了來自本地環境觀察者 (LEO) 網路的時空事件資料集,其中包含 1,000 個查詢事件。
距離閾值設定為 500 公里,增強因子為 2。
緯度閾值設定為 5 度,增強因子為 2。