toplogo
Bejelentkezés

基於深度卷積和遞迴神經網路模型的交通事故影響預測


Alapfogalmak
本文提出了一種基於深度學習的模型,用於預測交通事故對周圍交通流量的影響,並引入了一種新的指標來量化事故影響。
Kivonat

文獻回顧

事故風險預測
  • 過去幾十年,交通事故分析和預測一直是廣泛研究的課題。
  • 研究主要分為兩類:事故風險預測和事故影響預測。
  • 事故風險預測側重於預測事故本身的風險,而不是後果或任何特徵。
  • 這類研究的主要目標是預測預期交通事故數量(即事故率預測)或預測特定路段或地理區域是否會發生事故(即事故偵測)。
  • 研究人員應用了從線性到非線性模型,以及從傳統預測迴歸模型到當今最常見的數據分析和機器學習演算法等各種預測和計算方法。
事故影響預測
  • 另一組研究側重於分析和預測事故對周圍地區的後續影響。
  • 這些研究旨在建立或直接使用最能表明事故影響的特徵。
  • 大多數現有研究使用事故的持續時間或嚴重程度來定義影響。
  • 他們採用了各種模型來進行事故影響預測,從迴歸方法到基於神經網路的解決方案。

本研究的貢獻

  • 基於真實世界的交通事故後續影響預測設定: 本文提出了一種有效的設定,使用易於獲取的真實世界數據資源(即有關事故事件、交通堵塞事件、天氣數據和空間信息的數據集)來估計事故發生後不久對周圍地區的影響。此外,該框架採用數據增強方法從異構數據源中獲取準確的特徵向量。
  • 數據驅動的標籤優化過程: 本研究說明了一種新的特徵,以證明交通事故對其周圍交通流量的後續影響。此特徵結合了三個因素,即“嚴重程度”、“持續時間”和“距離”,以創建一個引人注目的特徵,我們在本文中將其稱為伽瑪。
  • 用於交通事故影響預測的級聯模型: 本文提出了一種級聯模型,以利用 LSTM 和 CNN 的能力,分兩個階段有效地預測交通事故的後續影響。首先,它區分事故事件和非事故事件,然後預測事故事件的影響強度。

數據集

  • 本研究採用美國事故數據集,這是一個從 2016 年到 2020 年從美國各地收集的大規模交通事故數據集。
  • 該數據集包含從兩個來源收集的事故事件:MapQuest Traffic 和 Microsoft BingMaps,涵蓋美國 49 個州。
  • 提取了 73,553 條事故記錄,涵蓋了從 2016 年 8 月到 2020 年 12 月的四年時間。
  • 除了描述原始數據集外,還描述了數據清理、轉換和增強的過程。
  • 最後,我們簡要研究了事故持續時間分佈,並將其與其他研究人員的發現進行了比較。

交通事故後續影響的標籤開發

  • 本文提出了一種基於事故造成的延誤的新型“事故影響”特徵。
  • 這是通過從交通堵塞數據集中找到一個函數 F 來估計事故數據集上的延誤來完成的。

交通事故影響預測方法

  • 本節描述了提出的用於預測交通事故影響的模型。
  • 該演算法設計的靈感來自輸入的時空特徵。
  • 我們利用了兩個主要的神經網路組件:卷積神經網路 (CNN) 和長短期記憶 (LSTM)。
  • 通過前者,我們試圖有效地編碼所有類型的輸入屬性,尤其是空間屬性,而後者組件可以有效地編碼我們數據的時間方面,並利用過去的觀察結果來預測未來的交通事故影響。
edit_icon

Összefoglaló testreszabása

edit_icon

Átírás mesterséges intelligenciával

edit_icon

Hivatkozások generálása

translate_icon

Forrás fordítása

visual_icon

Gondolattérkép létrehozása

visit_icon

Forrás megtekintése

Statisztikák
在 2020 年,美國道路上的死亡率與 2019 年相比驚人地增加了 24%,這是自 1924 年以來最大的同比增長,根據國家安全委員會 (NSC) 的數據。 根據 Doane 的公式,對數正態分佈和對數邏輯分佈最能描述事故持續時間數據。 在我們的數據中,總共有 48,109 條交通堵塞記錄收集於 2018 年 6 月至 2019 年 8 月期間用於訓練模型。 該演算法將 85% 的數據用於訓練,15% 的數據用於評估。 從 2019 年 2 月到 2019 年 8 月的 27 週時間範圍內的事故被選為訓練時間範圍。 這 27 週的時間範圍包括 13,026 個事故表示和 319,194 個非事故表示。 使用隨機欠採樣 (RUS) 方法後,事故與非事故事件的比率從 1/43.3 增加到 1/1.3。
Idézetek
“嚴重的延誤在洛杉磯聖地亞哥高速公路北行持續了 22 分鐘。平均速度為每小時 10 英里。”

Mélyebb kérdések

除了事故持續時間、嚴重程度和道路封鎖距離外,還有哪些其他因素可以用於更全面地定義事故影響?

除了事故持續時間、嚴重程度和道路封鎖距離外,還有許多其他因素可以用於更全面地定義事故影響,以下列舉幾項重要因素: 事故類型: 不同類型的事故,例如追撞、側撞、翻車等,其影響程度可能會有顯著差異。 涉及車輛數量: 涉及車輛數量越多,通常意味著事故規模更大,對交通流量的影響也可能更大。 傷亡人數: 傷亡人數是衡量事故嚴重程度的重要指標,也會影響事故處理時間和對交通的影響。 道路類型: 事故發生的道路類型,例如高速公路、快速道路、市區道路等,會影響到事故的影響範圍和持續時間。 交通流量: 事故發生時的交通流量密度會直接影響到事故的影響程度,交通流量越大,影響也越大。 天氣狀況: 惡劣的天氣狀況,例如暴雨、濃霧、積雪等,會影響到事故處理時間和對交通的影響。 救援資源: 救援資源的調度速度和效率也會影響到事故處理時間和對交通的影響。 周邊環境: 事故發生地點的周邊環境,例如是否有橋樑、隧道、彎道等,也會影響到事故的影響範圍和持續時間。 社群媒體資訊: 社群媒體上的即時資訊,例如目擊者上傳的圖片、影片等,可以提供更及時和全面的事故資訊,有助於更準確地評估事故影響。 透過整合上述因素,可以建立更全面的事故影響評估模型,進一步提升預測準確性和可靠性。

如何解決模型在預測過程中可能產生的偏差,例如對特定地區或時間段的偏差?

模型在預測過程中可能產生偏差,例如對特定地區或時間段的偏差,這是一個常見問題。以下列舉幾種解決方案: 資料平衡: 確保訓練資料在不同地區、時間段和事故嚴重程度方面具有足夠的代表性。 對於資料量較少的地區或時間段,可以採用過採樣或資料增強等技術來平衡資料分佈。 特徵工程: 設計更具區分性的特徵,例如考慮不同地區的交通流量模式、道路結構差異、人口密度等因素。 使用特徵選擇方法,篩選出與目標變數高度相關的特徵,避免無關特徵引入偏差。 模型選擇: 選擇對資料偏差具有魯棒性的模型,例如基於樹的模型(決策樹、隨機森林、梯度提升樹)通常對資料偏差不太敏感。 使用集成學習方法,結合多個模型的預測結果,可以有效降低單一模型的偏差。 偏差校正: 在模型訓練過程中加入偏差校正項,例如使用加權損失函數,對特定地區或時間段的預測誤差給予更高的懲罰。 在模型預測結果上進行後處理,例如根據歷史資料對特定地區或時間段的預測結果進行校準。 持續監控和更新: 持續監控模型的預測效能,特別是關注不同地區和時間段的效能差異。 定期使用新的資料更新模型,確保模型能夠適應交通環境的變化。 總之,解決模型偏差需要綜合運用多種方法,從資料、特徵、模型、訓練過程等多個方面進行優化,才能構建出更準確、可靠和公平的預測模型。

如果將該模型應用於其他交通環境,例如發展中國家的城市,其預測準確性會受到哪些因素的影響?

將該模型應用於其他交通環境,例如發展中國家的城市,其預測準確性會受到以下因素的影響: 資料品質: 發展中國家的交通事故資料可能存在收集不完整、準確性較低、時效性不足等問題,這會直接影響模型的訓練和預測效果。 其他數據,例如交通流量、天氣狀況、道路資訊等,也可能存在類似問題。 交通環境差異: 發展中國家的城市交通環境與已開發國家存在顯著差異,例如交通流量模式、道路結構、車輛類型、駕駛行為等方面都可能不同。 模型需要根據當地交通環境進行調整和優化,才能更好地適應新的應用場景。 基礎設施: 發展中國家的交通基礎設施,例如道路監控系統、交通資訊平台等,可能不如已開發國家完善,這會影響到模型所需的數據獲取和即時預測能力。 文化和社會因素: 不同地區的文化和社會因素,例如交通法規執行力度、駕駛員安全意識、道路使用習慣等,也會影響到交通事故的發生規律和模型的預測準確性。 為了提高模型在發展中國家城市的預測準確性,可以考慮以下措施: 資料增強: 利用遷移學習、資料合成等技術,擴充訓練資料集,提升模型對當地交通環境的適應能力。 模型本地化: 根據當地交通環境和資料特點,調整模型結構、參數和特徵工程方法,例如加入當地特有的交通規則、道路類型、車輛類型等特徵。 與當地合作: 與當地政府、研究機構、交通管理部門等合作,獲取更準確、完整的交通事故資料和其他相關數據,並根據當地專家意見對模型進行優化。 總之,將該模型應用於發展中國家的城市需要充分考慮當地交通環境和資料特點,進行必要的調整和優化,才能確保模型的預測準確性和可靠性。
0
star