回顾特斯拉FSD beta版本发布以来的整个过程,引发最多争议的是特斯拉是否真的使用了“高精度地图”。有人惊叹其在没有地图的情况,产生了极度近似地图的情况。也有人质疑其在车端偷偷预加载了地图数据。
要回答这个问题,首先需要理解一个概念,高精度地图和众包地图是存在差异的。
高精度的生产过程简单来讲,首先由专业的测绘车在道路上行驶,采集原始的图像与激光数据以及部分静态控制点信息。将采集数据通过物理手段传递到云端后,进入生产环节,首先需要对原始的GPS数据和点云数据进行必要的后处理与数据对齐,获得精度更高的原始点云数据厚,开始正式的地图生产线的任务。
标注员利用半自动化的工具链以及生产平台,在点云和原始图像上进行矢量特征的绘制作业,由系统完成后续的编译任务后,最终进入质检环节,质量合格的情况下存入母库,完成一次高精度地图的生产过程。
众包地图的生产过程简单来讲,首先由在售的车辆上传对应的感知局部重建结果,并对数据进行车端压缩,并通过4G/5G通讯传递到云端后进入生产环节。
另外通过少量基准修正车辆获得动态控制点并同步进入云端。利用全局SLAM技术对矢量特征信息进行大规模的聚类与对齐。对局部问题点和质量问题进行人工修正,并存入母库,完成一次众包地图的生产过程。
如下表所示,从不同维度,我们简单评估下两种制图方式的差异。可以看到两种制图方式之间各有优缺点。
评估维度 | 高精度地图 | 众包地图 |
绝对精度的评估 | 5cm | 0.5-5m |
相对精度的评估 | 10cm (定位5cm+地图5cm) | 10cm (匹配2cm+感知8cm) |
采集元素 | 激光点云(特制高频单线激光)与360全景图像+高精度GPS信号 | 自车传感器的感知信息(3DPOI+1D公式线型)+高/低精度GPS信号 |
数据传递方式 | 硬盘快递 | 数据实时上传 |
采集车情况 | 200-500万的专业测绘车 (2-100辆) | 出售的营运车辆 (千万级别) Ps:仍需要2-10辆20-100万元量级的基准修正车辆 |
优势 | 在和城市交通等外围行业合作时可以提供统一基准 | 在自有数据闭环内部可以建立高效的内部标准 |
数据大小 | 3-10GB/km | 10-500KB/km |
优缺点 | 有计划的控制采集范围和最终地图数据质量,但更新和生产成本高 | 采集范围和数据质量受到用户行为和车辆传感器性能影响,但更新和生产成本低 |
自动驾驶适配性 | 动力与定位适配性一般,但法规匹配性较好 | 动力域定位适配性较好,但法规匹配性较差 |
适用范围 | 变更较小的高速道路 | 变更较快的城市道路 |
采集策略 | 一般单向道路只需要采集一次,另外需要配合控制点的静态测绘 | 一般单向道路每根车道需要采集一遍,控制点信息主要由基准修正的车辆动态测绘提供 |
生产方式 | 人工标注生产线配合半自动的生产和质量保障工具 | 半自动的生产平台,配合一定的人员进行辅助修正与质量保障 |
从字面意思来看毫无疑问,特斯拉没有使用“高精度地图”而是利用自己庞大的车队,完成了大范围的众包地图构建。因此网络上流传的,特斯拉花费了大量资源组织自己的地图数据是一个必然成立的观点,但问题在于其车端真的“直接”使用了这份数据吗?
目前关于众包地图的推测,仍然不是特斯拉地图疑云的终点。众包地图仍然是一种预装地图,和特斯拉宣称的没有使用地图仍然有不小的差距。
对特斯拉FSD的各类视频综合分析,可以确认两点。第一,特斯拉的规划仍然有明显规则算法的倾向,因此其“地图”的输入必然也是结构性数据。第二,FSD的视频中点存在明显的抖动现象,并不符合地图的数据特性。
(图片来源:知乎,黄浴)
因此,特斯拉的地图确实如特斯拉所言,可能并不完全是预装地图的逻辑,网络上对预装地图的怀疑更多的来源于很多没有看到的物体,却出现在了FSD的界面上,因此认为这是不可能的。但实际上目前深度学习的发展已经有技术方案可以”脑补”自己无法看见的内容。
ME的HPP似乎是这种方案的早期实践,其HPP可以在没有任何显性标线的情况下,猜想一条可通行结构路径。并且Tesla 前期在autopilot的合作过程中和ME有较深入的合作,逻辑上也相符合。
同时在特斯拉的技术交流会议中,其也透露了一些技术线索,将多路图像的压缩表征引入一个RNN循环网络,其road layout的预测结果已在粗粒度上“脑补”了不可见的部分,展现了这种技术的潜力。
而这一次发布的FSD明显在精细度上有了明显的提升,其输出结果已经逼近地图的效果。网络上很少能看到这一块的分析,因此对其进行一个详细的技术分析。首先从特斯拉释放的材料中我们初步可以判断,其使用了BEV网络。
其原理可以参考“ A Sim2Real DL Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in BEV,arXiv 2005.04078”这篇论文,其将单应性变换应用于车载摄像头的四个语义分割图像,将其转换为BEV。
逆透视变换直接用单应性转换误差很大(路面平坦的假设),而这种方法在无视觉失真情况下就学习如何计算准确的BEV图像。使用仿真软件进行训练,从而免去了巨大的标注工作量。
(图片来源:知乎,黄浴)
当获得俯视视角的语义分割结果后,下一步是要获得带有结构化属性的感知数据。
从目前的信息来分析,可以参考“A Parametric Top-View Representation of Complex Road Scenes”论文中提到的方法。
以BEV感知结果为输入,将众包地图导入仿真软件后,可以在仿真系统中模拟现实环境输入和结构化地图输出来做初步的预训练。利用对抗生成网络的域迁移方法,使用现实的图像数据输入,经过BEV转换后,接入对抗网络,将仿真系统上习得的成果迁移到现实图像当中,从而获得参数化的地图输出。
从目前行业最新研究的进展来看,特斯拉极大可能具备了不直接使用预装地图,而是使用地图数据训练近似地图的感知输出。
这种输出目前仍然不够成熟,但这个方向仍然具有很大的意义。该技术在中国最大的贡献可能来源于有效规避了国防安全的问题。自然资发〔2020〕95号《自然资源部国家保密局关于印发〈测绘地理信息管理工作国家秘密范围的规定〉的通知》明确规定了静止测绘的相关科目。
自动驾驶目前仍然在这些问题上存在一定的政策风险,但这种“地图”输出方式,由于不涉及绝对经纬度,似乎可以规避部分问题。其也让深度学习从感知模块走向了更多的下游模块,向全可微分的自动驾驶系统又近了一步。
(知乎:殷玮)
我们的个人命运,三分靠打拼,七分靠产业红利——《九章智驾》创刊词
推荐个展会及同期举办的论坛,感兴趣的请扫描图片中二维码报名: