当前位置:首页 > 焦点 > 国内

【汽车人】“纯视觉”的特斯拉有多可怕

作者:
黎野
时间:
2023-08-23 08:15:43

 

一旦纯视觉方案被证实具备可靠的实用性,那么激光雷达产业链可能灰飞烟灭。特斯拉在自动驾驶的领袖地位,也将变得无可置疑。

 

文 /《汽车人》黎野

 

马斯克喊了两年的取消雷达,据说已经打算在中国实施了。

 

具体计划可能是这样:取消所有雷达的新款Model 3,9月开始在上海日产1200辆左右,定价将下调至20万元。而其算力平台是HW3.5,而非HW4.0。

 

上个月还在传说新款Model 3的升级版本,从9个摄像头增加到12个,增加一个4D毫米波雷达,取消超声波雷达。这一较早版本的说法,与其3月份向北美监管机构提供材料的措辞是一致的。

 

难道短短几个月之间,特斯拉的纯视觉FSD有了真正突破?

 

 

虽然马斯克本人是众所周知的纯视觉原教旨主义者,但2022年晚些时候,北美监管机构对多起“幽灵刹车”的调查,难免让人认为,特斯拉迫于压力,必然回到比较保守的FSD方案上。

 

中国的监管与美国风格不同,但事后问责并不手软。特斯拉没有把握,似乎不会采取激进态度。

 

没有大模型也能纯视觉

 

两年来,自动驾驶技术已经发生了很大变化。

 

2021年特斯拉宣布FSD为纯视觉方案的时候,采用的是局部高精图+Transformer算法(一种自然语言翻译系统)。这其实和去年开始爆火的大模型的思路是一类的。

 

准确地说,该算法可以被纳入到后者的一个应用分支。一旦这个算法发展到转移模型的地步,可能会形成“端到端”的自动驾驶系统,前提是大模型参与训练。但当时提出这一技术的时候,还没有大模型工具。

 

马斯克说过,在毫米波雷达的波长下,现实街景看上去像一个奇怪的幽灵世界。除了金属,几乎所有东西都是半透明的。当雷达和视觉感知不一致,系统将采信哪一个?和航空常用的表决系统不同,自动驾驶必须100%确定“占位”。而毫米波雷达调校的一个基本原则,就是忽略静物,将其交给视觉系统,否则会不断与摄像头信息发生冲突。

 

 

人能靠纯视觉开车,因为人类的可见光波信号传输速度尚可,数据带宽也还行,但实时数据处理能力相当弱。

 

人类大脑的应对做法,是将大多数视觉信息弃之不用——并非视而不见,而是压根没翻译成头脑中的图像元素。但人类基本上可以应付所有长尾场景。事实证明,正是这种忽略大多数信息的做法,有助于人将有限的算力资源,集中在高价值任务上面。

 

显然,人类的预训练系统(熟悉驾驶技术的过程),逐渐形成了对任务价值的评估体系。其实这就是一种“蒸馏”数据方法。

 

AI很蠢,不能和人类的大脑相比。因为前者无法有效评估价值,无法对抗信息冲突,无法依据经验(预训练系统)穿透表象,抽出事物的物理特征,决定某些东西可以忽略。

 

在大模型还没有实际应用的时候,特斯拉构建了“残差神经网络”和“金字塔网络”。我们无意解释这两个“多任务神经网络”的运作细节。简单说,就是这两个网络对同一组摄像头传过来的数字图像,提取出不同精度的特征,打上时间标签,进而构建出三维空间+时间的虚拟数据(模拟真实道路),用来训练FSD。这就是“局部高精图”的数据源头。

 

研发重心变了

 

而现在,大模型已经横空出世,不在自动驾驶上利用,完全是暴殄天物。

 

现在特斯拉也和其它车企、自动驾驶企业一样,用大模型来自动标注+人工审核,生成预训练数据。大模型让业内第一次看到了解决长尾场景问题的希望。

 

这个技术强大的地方在于,不同于地图,只要数据足够精准,和摄像头捕捉的数据相吻合,就不需要额外的高图维护。

 

不过代价也是有的,这套流程需要强大算力。特斯拉因此部署了超级算力中心,其训练模型和数据,都存在这个超算中心里面。训练得差不多了,就将转移模型注入到车端。这个过程,汽车人在《大模型:汽车的自我革命》一文中,有所讨论。

 

 

目前来看,这套系统实际工作起来,存在问题。简单说,就是对与背景区分度小的障碍物,有“较小的概率”致其轮廓没有被辨识出来。在大量的驾驶实践中,这种事只要发生一次,如果不能人工及时介入,就可能酿成事故。

 

特斯拉被迫“拄拐”(添一颗4D雷达,强化占位辨识),但这是对现实能力的暂时妥协。纯视觉作为大方向来推进,特斯拉方面仍然坚持。

 

今年以来,特斯拉的策略是,不断改善纯视觉精度,不是提升摄像头分辨率,而是采用“原始光子计算”(提升动态适应范围)。这样一来,压力就来到软件算法和车端算力上来。当然,只要不用激光雷达(点云融合需要更强大的车端预解算),特斯拉面临的车端算力压力,并没有大于竞争对手。

 

不管怎么变换手法,车端的图像处理能力是根本。特斯拉必须让算力芯片硬件能够支持未来的扩张的算力需求。

 

 

同样道理,特斯拉也认为纯视觉能够取代超声波雷达(主要功能是泊车)。虽然用户普遍认为特斯拉的泊车能力是“灾难”,但特斯拉仍然砍掉了超声波雷达。至于激光雷达,从未在特斯拉产品上出现。

 

数据搜集问题

 

这套预训练系统最大的问题是提前提取街景数据。这种行为被监管认定为测绘活动,根据《中华人民共和国测绘法》规定,没有测绘资质的特斯拉,FSD无法在中国落地。

 

特斯拉的应对办法是在贵州建立数据中心,数据不出境,训练也在中国进行。但这只解决了数据安全的问题,如果扫描街景作为预训练系统,仍被认定为测绘行为,测绘资质这个坎,还是绕不过去。

 

 

之所以国外普遍装备的HW4.0硬件,这次可能换成HW3.5,因为前者用的是海外训练模型,在中国可能连高速NOA(自动辅助导航驾驶)都费劲。相当于硬件升级了,功能却给升没了。所以还不如回到老一点的版本,在中国训练。但这样一来,又回到上一个问题,死循环了。

 

一个固态车规雷达的成本,可以相当于特斯拉40个摄像头,足够装备5辆车。特斯拉方案的成本优势是显然的,但是几百元的超声波雷达都砍掉(对成本几乎影响太小了),只能再次表明特斯拉的技术信心。

 

自从大模型用在自动驾驶上之后,纯视觉方案的现实性也大为增强。其背后就是收集大量数据的预训练模型,硬件支持是超算中心和云服务体系。

 

两者对特斯拉来说都不是问题,但就是收集数据这一块还有问题,如果相关法规没有得到新解释,特斯拉要么拉着有资质的图商伙伴,去合法获取数据,要么改变扫描街景的方式。

 

 

尽管这件事还有悬念,但《汽车人》可以预想一下,如果这条路走通了,即法律上合规,技术上训练模型的精度,能与现在主流的高速和城市NCA抗衡,那么纯视觉路线将无条件胜出。原因是拥有成本优势。

 

很多新势力、传统车企,也包括华为这样的供应商,都对激光雷达产业链条有或多或少的投资。华为甚至直接控股,并下场造固态激光雷达。一旦纯视觉方案被证实具备可靠的实用性(而不是像以前总是有无法解释的故障,并遭到监管的关注),那么这条产业链可能灰飞烟灭。

 

至于毫米波雷达和超声波雷达,倒是能幸存。一是两者除了汽车都有别的用途;二是投资价值无法与激光雷达相比。

 

特斯拉在自动驾驶的领袖地位,也将变得无可置疑。自从Waymo跌下王座之后,这个位置悬置已久。这也将对市场销量的竞争,产生直接的影响。不仅相当于特斯拉打价格战的弹药更多了,而且其技术声望将胜过10年前的巅峰时刻。对于直接对手们来说,这绝不是好消息。【版权声明】本文系《汽车人》原创稿件,未经授权不得转载。
主办:汽车人传媒 | 汽车人网
ICP备案号:京ICP备18011211号-2
京公网安备 11010802029366号
@北京青青艺盛文化传媒有限公司
关注汽车人传媒
  • 中国汽车先锋力量
  • 来这了解更多车讯
联系方式
  • 連絡電話:8610-6343-5270
  • 連絡電話:8610-6343-5270
  • 郵便番号:100036
关注汽车人传媒
  • 中国汽车先锋力量
  • 来这了解更多车讯
关注汽车人时刻
  • 最火最热的一线车
  • 讯,在这等你。
关注汽车人传媒
  • 中国汽车先锋力量
  • 来这了解更多车讯
关注汽车人传媒
  • 中国汽车先锋力量
  • 来这了解更多车讯