点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享FastBEV: 一个快速和强大的BEV基线,再被TPAMI2024收录!如果您有相关工作需要分享,请在文末联系我们!
编辑 | 自动驾驶之心
前言
车端感知算法,作为自动驾驶技术的核心构成之一,近年来经历了显著的技术飞跃与数次迭代更新。其发展历程可概括为如下几个阶段:
2D感知与属性识别:初期,感知算法主要依赖于2D图像,专注于物体的检测与分类,并试图提取基本属性。
单目3D感知:随着技术进步,逐步发展出基于单目摄像头的3D感知算法,这些算法试图从单一图像中恢复深度信息。
环视3D感知:随后,技术进一步演进至利用多个摄像头实现环视3D感知,通过多视角数据融合提升感知的准确性与鲁棒性。
时序环视3D感知:在环视3D感知的基础上,引入了时间维度的考量,通过连续帧的变化融合,增强了对动态环境的感知能力。
多传感器融合:此阶段结合了雷达、摄像头等多种传感器数据,通过数据融合提升了感知系统的综合性能。
端到端模型:最新的发展趋势在于开发端到端的感知模型,这些模型直接从原始传感器输入预测规划结果,简化了处理流程并提高了运行效率。
车端感知算法的持续进步是自动驾驶技术发展的重要标志,尤其是模型方向的发展。随着模型规模的增大,如何在车端高效部署这些模型已成为一个亟待解决的问题。本文将介绍TPAMI 2024《FastBEV: A Fast and Strong Bird’s-Eye View Perception Baseline》,其主要作者之一现就职于哪吒汽车,负责量产项目的感知模型研发工作。
显式BEV转换的加速需求
针对BEV网络加速的需求,我们首先需要审视当前BEV环视感知的主流技术路径。BEV环视感知技术主要分为两大流派:其一,是以DETR3D和PETR为代表的基于Transformer的稀疏方法,它们通过融合3D位置编码与2D特征,并依托Transformer解码器实现query式的环视感知,而无需显式构建密集的BEV特征;其二,则是以BEVDet和FastBEV等算法为代表的密集方法,它们首先从多相机透视图像中提取2D特征,进而基于投影关系融合成dense的显式BEV特征,这种方案在时序融合、多传感器融合和多任务处理等方面表现出色,因而广泛应用于多种算法中。
然而,随着感知任务要求的不断提高,车端模型的网络结构日益庞大,对BEV感知的范围和分辨率需求亦日益增加。在此背景下,基于稠密BEV特征的方案在算力与感知性能之间往往难以取得平衡,因此,BEV网络的加速显得尤为重要。
FastBEV 如何解决加速问题
FastBEV作为一种前沿的环视感知技术,其在继承m2bev投影方案精髓的基础上,对特征融合效率进行了显著的性能优化。与LSS方法有所区别,FastBEV并不预测2D图像中的深度分布,而是基于一种更为直接的假设:在相机射线方向上,不同深度层次上的像素点特征具有一致性。此假设极大地简化了特征处理流程,有效规避了基于深度分布的特征叉乘操作,进而显著降低了计算复杂性。通过结合静态查找表和多合一的优化策略,FastBEV能够高效地将不同视角下的特征进行整合,从而构建出一个全面且精确的BEV特征表示。该技术不仅在部署速度上达到了极致,同时结合多尺度融合等模型设计和训练trick确保了相当的精度水平。
具体而言,相较于其他view transform方法,如LSS,它们要求为每个相机视角生成多个特征副本,并通过sum pooling进行整合。然而,FastBEV通过深入分析nuscenes数据集中不同相机视角重叠区域的占比情况,揭示了这些重叠区域实际上占比相对较小。进一步地,FastBEV发现每个相机仅在其特定的视野范围内填充有效的特征信息,而其余区域则保持为零值状态。基于这一关键观察,FastBEV提出了一种优化的特征融合策略,即直接将多个特征副本按照内外参数精准地采样并填充到共享的volume特征中。在处理重叠区域时,FastBEV提供了两种选择:保留任意一份特征或进行特征融合。通过实验验证,这种策略在精度上的损失几乎可以忽略不计。
FastBEV在性能优化方面采取了查找表优化技术,该技术通过构建查找表,实现了对目标voxel的2D特征的高效采样。具体而言,该技术仅需根据voxel的索引在查找表中查找对应的2D特征,从而完成一次采样即可实现完整的view transform,此举显著减少了冗余计算和显存的占用。此外,FastBEV还结合了3D neck部分的s2c技巧以及模型量化加速策略,使其在CPU和GPU平台上均能达到实时的感知性能,同时保持了算子的简洁性和跨平台部署的便捷性。
FastBEV基于深度均匀假设,通过改进特征融合策略和查找表优化,结合3D neck优化及模型量化加速等举措,构建了一个高效、实时且易于部署的环视感知系统。该系统专为自动驾驶车辆的环境理解而设计,对自动驾驶技术的持续发展发挥了显著推动作用。
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵