核心概念
本文介紹了一種名為 MagicDriveDiT 的新型深度學習架構,用於生成適用於自動駕駛訓練和模擬的高解析度、長篇幅且可控的街景影片。
摘要
MagicDriveDiT:透過自適應控制生成用於自動駕駛的高解析度長影片
論文概述
本論文介紹了 MagicDriveDiT,這是一個基於 DiT 架構的新方法,旨在解決自動駕駛應用中對高解析度和長影片的需求,並實現精確控制。
研究背景
自動駕駛領域需要高解析度和長影片來訓練感知模型、進行測試和進行場景重建。高解析度有助於辨別細節和遠處物體,而長影片則提供更多內容,有助於更全面地評估自動駕駛演算法。然而,合成高解析度長影片面臨著兩大挑戰:生成模型的可擴展性和幾何控制。
MagicDriveDiT 方法
MagicDriveDiT 採用了以下方法來應對這些挑戰:
- DiT 架構和流匹配: 採用 DiT 架構和流匹配公式來提高可擴展性,使模型能夠有效處理不同場景中的複雜數據。
- 時空條件編碼: 使用專門設計的時空條件編碼來實現對時空潛在空間的精確控制,從而實現對合成影片中元素的精確管理。
- 漸進式引導訓練: 採用漸進式引導策略來訓練模型,從短影片過渡到長影片,使模型能夠捕捉複雜的細節並泛化到複雜的場景。
- 可變長度和解析度適應: 利用不同解析度和時長的影片來訓練模型,使其能夠合成比訓練數據更長的影片,並泛化到不同的解析度和幀數。
實驗結果
實驗結果表明,MagicDriveDiT 在生成與道路地圖、3D 邊界框和不同相機視角一致的逼真影片方面表現出色,其解析度和幀數均優於先前的工作。
主要貢獻
- 設計了一個高效的框架 MagicDriveDiT,利用漸進式引導來實現高品質、高解析度和長影片的生成。
- 開發了新穎的時空控制方法,用於控制物體位置、道路語義和相機軌跡,同時保持多幀和多視角的一致性。
- 模型通過混合解析度和時長訓練,從圖像生成泛化到影片生成,並具有外推能力,顯著超過了先前工作中的解析度和幀數。
統計資料
MagicDriveDiT 在 nuScenes 數據集中生成高達 848×1600 解析度和 241 幀的影片。
與 MagicDrive 相比,MagicDriveDiT 的 FVD 顯著降低,這表明影片品質有所提高。
在圖像生成方面,MagicDriveDiT 在車輛分割 mIoU 和物體檢測 mAP 方面優於基準模型。
MagicDriveDiT 的訓練分三個階段進行:首先使用低解析度圖像進行引導訓練,然後過渡到低解析度短影片,最後使用高解析度長影片進行訓練。
在訓練的最後兩個階段,使用了不同解析度和長度的影片,使模型能夠生成不同解析度的圖像和影片,並外推到比訓練設置更長的幀數。
引述
"高解析度和長影片合成是內容生成領域的一個研究重點,也是自動駕駛技術的迫切需求。"
"然而,合成高解析度長影片面臨著兩大挑戰。首先,數據量的增加要求生成模型具有高度的可擴展性,才能有效地支持高品質合成。其次,影片生成中的幾何控制是一個巨大的挑戰。"
"在本文中,我們介紹了 MagicDriveDiT,這是一個基於 DiT 架構的新方法,旨在解決上述挑戰,實現高解析度和長街景影片的精確控制合成。"