Core Concepts
利用大型語言模型和真實世界物流數據,可以有效地重寫異常地址,顯著提高物流系統的效率。
論文資訊
作者:Qinchen Yang, Zhiqing Hong, Dongjiang Cao, Haotian Wang, Zejun Xie, Tian He, Yunhuai Liu, Yu Yang, and Desheng Zhang
會議:Conference’17, July 2017, Washington, DC, USA
時間:2024
研究目標
本研究旨在開發一種基於大型語言模型 (LLM) 的地址重寫框架 AddrLLM,以解決物流領域中異常地址帶來的挑戰。
方法
AddrLLM 結合了三種關鍵模組:
多指令監督微調 (SFT):利用包含地址解析、地址實體預測和地址重寫任務的大規模數據集對 LLM 進行微調,使其理解標準中文地址結構。
無偏差目標對齊:利用京東 LBS 系統提供的真實世界反饋,包括語義評分、反向地理編碼評分和地理編碼評分,對 LLM 進行進一步訓練,使其能夠處理 LBS 系統無法處理的異常地址。
以地址為中心的檢索增強生成 (RAG):設計了一個基於空間編碼的檢索器,從數據庫中檢索與輸入地址在地理位置上接近的地址,為 LLM 提供額外的上下文信息,減少幻覺和偏差。
主要發現
離線實驗結果顯示,AddrLLM 在地址實體預測、地址重寫和地理編碼等任務上均優於現有方法,包括 SoTA 基線 G2PTL。
AddrLLM 在地理編碼任務上的穩健性達到 99.9%,表明其能夠有效識別正確地址並避免將其修改為錯誤地址。
AddrLLM 已部署到京東物流浙江省,並有效減少了由異常地址引起的包裹重新路由率超過 40%。
結論
AddrLLM 是一種新穎且有效的基於 LLM 的地址重寫框架,可以顯著提高物流系統的效率。
局限與未來研究方向
目標對齊階段的處理速度相對較慢,未來可以探索更高效的獎勵計算和訓練方法。
目前 AddrLLM 僅部署在浙江省,未來可以擴展到全國範圍。
Stats
京東物流每天面臨約 25,000 起由異常地址引起的重新路由事件,每年造成超過 200 萬美元的損失。
研究人員使用了一個包含 2 億條地址數據的地理編碼數據庫來微調檢索器。
在浙江省的部署結果顯示,AddrLLM 每天處理數百萬個包裹,並有效減少了 40% 以上的重新路由事件。