【汽车人】“纯视觉”的特斯拉有多可怕

一旦纯视觉方案被证实具备可靠的实用性，那么激光雷达产业链可能灰飞烟灭。特斯拉在自动驾驶的领袖地位，也将变得无可置疑。

文 /《汽车人》黎野

马斯克喊了两年的取消雷达，据说已经打算在中国实施了。

具体计划可能是这样：取消所有雷达的新款Model 3，9月开始在上海日产1200辆左右，定价将下调至20万元。而其算力平台是HW3.5，而非HW4.0。

上个月还在传说新款Model 3的升级版本，从9个摄像头增加到12个，增加一个4D毫米波雷达，取消超声波雷达。这一较早版本的说法，与其3月份向北美监管机构提供材料的措辞是一致的。

难道短短几个月之间，特斯拉的纯视觉FSD有了真正突破？

虽然马斯克本人是众所周知的纯视觉原教旨主义者，但2022年晚些时候，北美监管机构对多起“幽灵刹车”的调查，难免让人认为，特斯拉迫于压力，必然回到比较保守的FSD方案上。

中国的监管与美国风格不同，但事后问责并不手软。特斯拉没有把握，似乎不会采取激进态度。

没有大模型也能纯视觉

两年来，自动驾驶技术已经发生了很大变化。

2021年特斯拉宣布FSD为纯视觉方案的时候，采用的是局部高精图+Transformer算法（一种自然语言翻译系统）。这其实和去年开始爆火的大模型的思路是一类的。

准确地说，该算法可以被纳入到后者的一个应用分支。一旦这个算法发展到转移模型的地步，可能会形成“端到端”的自动驾驶系统，前提是大模型参与训练。但当时提出这一技术的时候，还没有大模型工具。

马斯克说过，在毫米波雷达的波长下，现实街景看上去像一个奇怪的幽灵世界。除了金属，几乎所有东西都是半透明的。当雷达和视觉感知不一致，系统将采信哪一个？和航空常用的表决系统不同，自动驾驶必须100%确定“占位”。而毫米波雷达调校的一个基本原则，就是忽略静物，将其交给视觉系统，否则会不断与摄像头信息发生冲突。

人能靠纯视觉开车，因为人类的可见光波信号传输速度尚可，数据带宽也还行，但实时数据处理能力相当弱。

人类大脑的应对做法，是将大多数视觉信息弃之不用——并非视而不见，而是压根没翻译成头脑中的图像元素。但人类基本上可以应付所有长尾场景。事实证明，正是这种忽略大多数信息的做法，有助于人将有限的算力资源，集中在高价值任务上面。

显然，人类的预训练系统（熟悉驾驶技术的过程），逐渐形成了对任务价值的评估体系。其实这就是一种“蒸馏”数据方法。

AI很蠢，不能和人类的大脑相比。因为前者无法有效评估价值，无法对抗信息冲突，无法依据经验（预训练系统）穿透表象，抽出事物的物理特征，决定某些东西可以忽略。

在大模型还没有实际应用的时候，特斯拉构建了“残差神经网络”和“金字塔网络”。我们无意解释这两个“多任务神经网络”的运作细节。简单说，就是这两个网络对同一组摄像头传过来的数字图像，提取出不同精度的特征，打上时间标签，进而构建出三维空间+时间的虚拟数据（模拟真实道路），用来训练FSD。这就是“局部高精图”的数据源头。

研发重心变了

而现在，大模型已经横空出世，不在自动驾驶上利用，完全是暴殄天物。

现在特斯拉也和其它车企、自动驾驶企业一样，用大模型来自动标注+人工审核，生成预训练数据。大模型让业内第一次看到了解决长尾场景问题的希望。

这个技术强大的地方在于，不同于地图，只要数据足够精准，和摄像头捕捉的数据相吻合，就不需要额外的高图维护。

不过代价也是有的，这套流程需要强大算力。特斯拉因此部署了超级算力中心，其训练模型和数据，都存在这个超算中心里面。训练得差不多了，就将转移模型注入到车端。这个过程，汽车人在《大模型：汽车的自我革命》一文中，有所讨论。

目前来看，这套系统实际工作起来，存在问题。简单说，就是对与背景区分度小的障碍物，有“较小的概率”致其轮廓没有被辨识出来。在大量的驾驶实践中，这种事只要发生一次，如果不能人工及时介入，就可能酿成事故。

特斯拉被迫“拄拐”（添一颗4D雷达，强化占位辨识），但这是对现实能力的暂时妥协。纯视觉作为大方向来推进，特斯拉方面仍然坚持。

今年以来，特斯拉的策略是，不断改善纯视觉精度，不是提升摄像头分辨率，而是采用“原始光子计算”（提升动态适应范围）。这样一来，压力就来到软件算法和车端算力上来。当然，只要不用激光雷达（点云融合需要更强大的车端预解算），特斯拉面临的车端算力压力，并没有大于竞争对手。

不管怎么变换手法，车端的图像处理能力是根本。特斯拉必须让算力芯片硬件能够支持未来的扩张的算力需求。

同样道理，特斯拉也认为纯视觉能够取代超声波雷达（主要功能是泊车）。虽然用户普遍认为特斯拉的泊车能力是“灾难”，但特斯拉仍然砍掉了超声波雷达。至于激光雷达，从未在特斯拉产品上出现。

数据搜集问题

这套预训练系统最大的问题是提前提取街景数据。这种行为被监管认定为测绘活动，根据《中华人民共和国测绘法》规定，没有测绘资质的特斯拉，FSD无法在中国落地。

特斯拉的应对办法是在贵州建立数据中心，数据不出境，训练也在中国进行。但这只解决了数据安全的问题，如果扫描街景作为预训练系统，仍被认定为测绘行为，测绘资质这个坎，还是绕不过去。

之所以国外普遍装备的HW4.0硬件，这次可能换成HW3.5，因为前者用的是海外训练模型，在中国可能连高速NOA（自动辅助导航驾驶）都费劲。相当于硬件升级了，功能却给升没了。所以还不如回到老一点的版本，在中国训练。但这样一来，又回到上一个问题，死循环了。

一个固态车规雷达的成本，可以相当于特斯拉40个摄像头，足够装备5辆车。特斯拉方案的成本优势是显然的，但是几百元的超声波雷达都砍掉（对成本几乎影响太小了），只能再次表明特斯拉的技术信心。

自从大模型用在自动驾驶上之后，纯视觉方案的现实性也大为增强。其背后就是收集大量数据的预训练模型，硬件支持是超算中心和云服务体系。

两者对特斯拉来说都不是问题，但就是收集数据这一块还有问题，如果相关法规没有得到新解释，特斯拉要么拉着有资质的图商伙伴，去合法获取数据，要么改变扫描街景的方式。

尽管这件事还有悬念，但《汽车人》可以预想一下，如果这条路走通了，即法律上合规，技术上训练模型的精度，能与现在主流的高速和城市NCA抗衡，那么纯视觉路线将无条件胜出。原因是拥有成本优势。

很多新势力、传统车企，也包括华为这样的供应商，都对激光雷达产业链条有或多或少的投资。华为甚至直接控股，并下场造固态激光雷达。一旦纯视觉方案被证实具备可靠的实用性（而不是像以前总是有无法解释的故障，并遭到监管的关注），那么这条产业链可能灰飞烟灭。

至于毫米波雷达和超声波雷达，倒是能幸存。一是两者除了汽车都有别的用途；二是投资价值无法与激光雷达相比。

相关信息

最新推荐