本文提出了DiffMap,这是一种利用潜在扩散模型学习地图结构先验的新方法,以增强传统的地图分割模型。主要包括以下内容:
基线模型:采用BEV编码-解码范式,编码器提取输入数据(LiDAR和/或相机数据)的特征,解码器(分割头)将高维特征表示映射到相应的分割图。
DiffMap模块:DiffMap模块作为解码器集成到基线框架中。它包括两部分:一是使用VQVAE对地图分割的ground truth进行编码压缩到潜在空间;二是在潜在空间中进行扩散和去噪过程。在去噪过程中,将BEV特征作为条件控制变量引导生成过程。
训练和推理:在训练时,优化目标包括扩散模型的重建损失以及基线模型的辅助监督损失。在推理时,从噪声开始进行迭代去噪,得到最终的分割结果。
实验结果表明,DiffMap在短距离和长距离检测场景中都能显著提高地图分割的性能,有效纠正了基线模型存在的结构问题,如分割结果中的间断分隔线、模糊的人行横道和不规则的边界等。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Peijin Jia,T... في arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02008.pdfاستفسارات أعمق