天极大咖秀

登录 | 申请注册

数据驱动的智驾十年 特斯拉、Momenta合流闯进Robotaxi卫冕之战

智能相对论 2025-06-06 阅读: 9,993 次

文 | 智能相对论

作者 | 海怪

2025年4月,工信部的一纸公告,让炙热的智驾行业开始了一场“集体正名”运动。

一夜之间,原本行业常用的“高阶智驾”、“智能驾驶”、“零接管"等行业热词打回到本来面目:组合驾驶辅助或辅助驾驶。

(国际汽车工程师学会的自动驾驶分级)

过去的十年,智驾行业狂飙突进,理性与梦想齐飞,野心与煎熬并存。当下,在2025智驾淘汰赛和强力监管之下,所有智驾玩家,概念拉齐,剩下只看实力——裸泳者出局,喧嚣者闭嘴,长跑者胜出。

引发智驾行业这场“正名”的“始作俑者”,正是今年刚刚将FSD功能引入中国市场的特斯拉。2013年,特斯拉在与谷歌无人车的一场早期合作中,马斯克提出了Autopilot的构想,即将一个用于航空业的“自动驾驶仪”的概念应用到全新的自动驾驶领域。

Autopilot对行业影响深远。至今我们在车企宣传中看到的NOA(领航辅助驾驶),其中A就是Autopilot的简写。所以,Autopilot概念有着很强的前瞻性,能够很好描述这种机器自主操控同时人类随时监管的状态。但它字面意义上又极具迷惑性,使得普通人很容易将其当做完全自动驾驶来使用,以至于此后引发了多起事故悲剧。

谷歌和特斯拉短暂合作过后,双方很快分道扬镳。谷歌开始专注完全无人的L4自动驾驶,瞄准Robotaxi市场,而特斯拉则面向乘用车市场,提供面向驾驶员的L2驾驶辅助。

特斯拉的逻辑是,通过量产辅助驾驶的数据推动软件算法的迭代升级,以远比L4更低的成本来逐步实现自动驾驶。而前谷歌自动驾驶技术负责人Chris Urmson后面则暗讽:辅助驾驶想要实现无人驾驶,就跟一个不断练习跳高的人终有一天可以飞起来一样(不可能)。

2016年,特斯拉发布了FSD智驾套件,FSD字面意思为完全自动驾驶。这是一个更具迷惑性的名字。但其实,FSD一直以来都只是其智驾硬件的代名词。直到今天,特斯拉FSD的实质仍然是L2辅助驾驶级别,仍然强调其Supervised(人驾监督)的性质。所以,今年3月底,积极推动FSD入华的特斯拉便十分乖巧的将国内官网的FSD驾驶套件更名为“智能辅助驾驶功能”。

然而,时至今日。一个全新的契机也正悄然来临。原本被Waymo(谷歌无人车业务2016年独立而来)所看不上的辅助驾驶路线,正在悄然向L4自动驾驶发起冲锋。

据报道,特斯拉重新提交“Tesla Robotaxi”商标申请,并计划于6月中下旬在得克萨斯州奥斯汀启动Robotaxi测试。虽然初步可能只有10台左右的投放,但终于要把马斯克多次跳票但一直坚持的大饼给圆上了。

而我们也看到,中国的Robotaxi玩家们也加速了规模化推广和全球化商业运营的节奏。不止是追随Waymo的小马智行、文远知行等玩家,作为量产辅助驾驶头部玩家的Momenta也宣布要推出基于现有方案的前装量产的Robotaxi,也将一举从辅助驾驶方案抵达Robotaxi的市场。

以数据驱动推动AI算法进化,通过量产辅助驾驶和L4自动驾驶两大支点的协同进化,让“辅助驾驶”和“自动驾驶”的技术边界线完全被打破。

为什么是数据驱动的特斯拉和Momenta,不约而同地完成这条“从跳跃到飞跃”的技术跃迁?我们还得从过去十年间说起,一起搞清楚这场蜕变背后的草蛇灰线。

激进拓荒者:特斯拉押注AI智驾路

19世纪初,大批美国的早期创业者们闯入西部,开疆扩土,开启了持续半个世纪的西进运动。

而马斯克就像当时那些心怀理想和发财梦的牛仔,带着特斯拉开启了乘用车智能辅助驾驶的狂飙突进。

特斯拉这场智驾的“西进运动”是如何推进的?

从2014年至今大致可以分为三个阶段,分别是:2014-2016年的外部合作期,2016年到2019年的自研过渡期,以及2019年至今的全面自研期。

第一阶段,特斯拉先后与Mobileye和英伟达建立过合作,经历了“软硬件外采”、“硬件外采、软件自研”的艰难历程。

2014年,特斯拉在“Autopilot”上并无多少积累,本着“能上车就算赢”的策略,选择了当时市面上能达到L2辅助驾驶能力的视觉方案——Mobileye的EyeQ3,AI算力是今天看起来少得可怜的0.25 TOPS,只能支持一个前视摄像头、一个毫米波雷达和12个超声波雷达,从而实现了自适应巡航、前车碰撞预警以及方向盘自主变道等功能。

基于这一软硬件外采方案,特斯拉于2014年10月发布Autopilot1.0版本和硬件模块Hardware1.0。但实际上直到1年后的2015年10月,特斯拉车主采真正使用上。

马斯克从一开始就对Mobileye的黑盒交付(就是软硬件封装起来,不会对主机厂开放)十分不满。借着2016年那场人类世界首例“自动驾驶车事故”的由头,特斯拉果断抛弃Mobileye,转向了英伟达的怀抱。

2016年10月,特斯拉发布了Autopilot 2.0和硬件模块HW 2.0。计算单元是英伟达DRIVE PX2定制主板,主板上面搭载了Tegra X2 CPU和升级为Pascal架构的GPU,算力是10 TOPS,几乎是Mobileye EyeQ3的整整40倍。外接传感器包含了8个摄像头、1个毫米波雷达、12个超声波雷达。

但英伟达和特斯拉在软件算法上也并没有特别突出,一直到第二年的上半年,才将Autopilot 1.0的主要功能实现出来。

英伟达不过也是“过墙梯”,马斯克通过NVIDIA Drive这样一个自由度很高的开放平台,锻炼了软件算法,为自研打下了基础。

第二阶段,特斯拉在和英伟达你侬我侬之际,就开始了智驾芯片的自研之路。这就是后面被公众所熟知的FSD芯片,单片AI算力72TOPS,采用高度定制的CPU+GPU+ASIC架构,其中ASIC是由两个神经网络处理单元NPU组成,专门用作视觉图形处理。

2019年,特斯拉推出FSD软件系统和HW3.0。相比较前一代HW 2.5(算力20TOPS),HW3.0平台上配备了两颗FSD芯片达到144TOPS,系统算力增长了7倍多。

也是在这一阶段,除了芯片自研之外,特斯拉招募了大批人工智能算法专家,开始感知和决策当中引入深度学习算法。为适应AI算法所需要的大规模数据处理和标注,特斯拉还引入了上千人的标注团队以及不断扩容的数据中心。

以至于在2019年4月的Autonomy Day上,马斯克首次公布了超级计算机Dojo的研发计划。

至此,特斯拉进入第三阶段——全面自研阶段。

作为量产的智能驾驶方案,在特斯拉这里,形成一个基于AI三要素——即算法、数据和算力,所形成的数据驱动的开发范式。

数据,自不必说,来自量产车型和采集车回传的大量驾驶场景数据和驾驶行为数据,由于当时的算法采用监督学习,十分依赖高质量的标注数据,所以数据标注一直是一个“人工大于智能”的苦活累活。同时也包括大量仿真构造的虚拟场景数据,用于真实世界里很难遇到的corner cases(极端场景)或长尾场景。

算力,即刚刚一直讲到的车端的计算单元,主要是指运行智驾算法AI芯片。同时也包括在云端进行算法训练和数据处理的AI芯片,市面上主要是被英伟达的GPU所垄断,而特斯拉的Dojo则更进一步为自动驾驶视觉模型训练设计,

算法,笼统来讲,就是由云端计算平台根据大规模数据学习所训练出来的一堆神经网络,然后经过微调、蒸馏等方式部署到车端,形成一个可以处理感知理解、认知决策和预测规划等任务的复杂神经网络系统。

这里为什么可以将特斯拉比喻为“西部拓荒者”,原因无他,就是特斯拉以引路人的角色彻底塑造了如今主流的自动驾驶技术路线。

2021年的Tesla AI Day具有里程碑意义,约等于公开了特斯拉在之前数年时间的技术探索。我们以智驾系统最重要的感知算法为例,再花一些篇幅来梳理特斯拉智驾算法的迭代过程。

感知的核心任务是识别和理解外部环境。特斯拉的8个摄像头可以不停地采集到外部世界的2D图像,也就是平面图像,但这不足以构造出我们人类驾驶所需要的始终延续的车道线、疾驰而过的车辆等信息。通过感知神经网路,特斯拉构建出一个表征真实世界的3D向量空间。

2021年 AI Day上,特斯拉公布的感知方案,就是基于3D向量空间构造出一个HydraNet架构,即多个任务头(head,像九头蛇一样)共享一个数据“躯干”(BackBone),利用多头执行包括物体检测、交通灯识别、车道线预测等任务。

这就是外界所津津乐道的“BEV+Transformer”,其中BEV就是这8个摄像头拼接而成的一个360度俯视场景图,真实还原周围的环境,前后相继延长的车道线、出现在不同摄像头里的车辆,符合我们人类视觉习惯,甚至超越人类视觉范围。

而Transformer是2017年谷歌推出的一种神经网络架构,开启了我们今天所熟知的大模型时代,最初被应用在自然语言任务处理当中,而谷歌研究者在2020年发现,Transformer在处理图像任务时也十分高效,由此推出了Vision Transformer(ViT),突破了原有的卷积神经网络(CNN)的局限,一举成为智驾主流的感知算法架构。

到了2022年的AI Day上面,特斯拉在感知模块进一步升级了占用网络(Occupancy Network),配合 NERF 算法,可以在 BEV+Transformer 感知框架的基础上实现通用能力更强的 3D 空间感知。形象理解,就是将感知环境当中的元素给体素化,变成带有时空信息的信息,能够让车辆更好预测障碍物的轨迹,也可以更好规划自车的轨迹。

这两届AI Day带给整个行业极大的启发,大量从业者对特斯拉公布多方案进行像素级的研究。特斯拉担心自己暴露了过多信息,所以2022 AI Day之后,至今再无下一届。

就当中国的信徒们亦步亦趋跟随特斯拉的技术方案之时,特斯拉又放出了“端到端”的全新方案。

在此之前,在特斯拉智驾软件算法中,感知、规划、控制等模块一直是相对独立,其中感知算法是神经网络化最为彻底的,而规控算法则带有大量的人工规则代码。而特斯拉在“端到端”方案之前,已经尝试将神经网络用于自车轨迹预测、规划当中。

而端到端,就是这一进程的最极致表现,完全采用一张神经网络,将感知、轨控和执行链接起来,“图像进、动作出”,像极了我们人类老司机开车的过程,我们做出加减速、转向灯动作几乎是跟感知同时且不加思索的。而之前的所谓模块化,则像极了新手司机先要判断下看到了什么、思考下这个情况应该怎么办,然后再告诉手和脚要怎么行动。

端到端方案和模块化方案的高下立分,但实现端到端并不容易。

2023年,特斯拉开始尝试端到端方案的测试,系统运行速度比原方案更快,甚至直接删掉了用于确保安全、文明驾驶的30万行人工代码,辅之以端到端系统自己学到的人类的开车知识。

2024年,特斯拉FSD V12版本正式发布,采用端到端架构,表现优异,再次引领了潮水的走向。

这几乎是一次革命性的技术跃升,但特斯拉并没有透露细节,但是特斯拉从开创的数据驱动的技术范式,让同行找到端到端的known-how已经不再遥不可及。

来自大洋对岸的中国智驾创业公司,也找到了自己的破茧成长之路。

热血难凉:Momenta笃定“数据飞轮”

2016年是全球自动驾驶产业第一个爆发节点。

这一年,谷歌无人车项目独立,成为今天还活跃在 Robotaxi市场的Waymo,谷歌团队出走创办的Cruise在这一年被通用高价收购。

更多的自动驾驶精英先后走出,成立了一家又一家自动驾驶公司,进入无人出行及物流领域。

国内同样继百度之后,涌现出一批自动驾驶公司,Momenta、小马智行以及17年成立的文远知行,也都是作为Waymo的信徒,以实现L4自动驾驶为目标。

在接下来的几年间,特斯拉从长期在自动驾驶领域垫底的小透明,成长为行业不可忽视的新兴力量——它将智能辅助驾驶这条路走通了。

即通过规模量产积累数据,不断优化软件算法,来实现智驾的迭代升级,进一步又促进用户的使用,形成数据驱动的正向加速。

而Robotaxi的重传感器、重高精地图的模式,只能用小规模车队在限定范围做运营测试,从而陷入难以规模化增长以实现正向商业闭环的陷阱。

这就是行业长期以来的跨越式和渐进式路线之争。

谷歌向左,特斯拉向右,大多数跟随者选择了站队Waymo,很长时间Robotaxi甚嚣尘上。

Momenta似乎选择了第三条路,更倾向于特斯拉,先做量产智驾方案,但不放弃L4自动驾驶。

Momenta CEO曹旭东,一个以《航海王》主人公路飞作为头像的年轻人,以热血少年的姿态,毫不犹豫地迈进自动驾驶的“伟大航路”里,试图用人工智能的方式来完成一个少有人敢走的路,实现L4自动驾驶。

如今来看,Momenta仿佛是一开始就拿到伟大航路的地图,踩对了几乎所有节点,才成就了如今头部量产辅助驾驶的地位。

但实际上,过程并不会如此简单。

从2016到2018年最初成立的两年,Momenta更像是一个技术研究院,专攻自动驾驶的算法优化,做课题、刷比赛,以学霸的方式来吸引投资人的关注。

数据驱动算法、量产辅助驾驶和全无人驾驶并行的想法,在Momenta成立之初就有。2018年,Momenta越来越意识到量产经验和数据规模的重要性,后来将战略总结成 “一个飞轮,两条腿”。

所谓“一个飞轮”,就是打造“数据飞轮”这一高效开发模式,所谓“两条腿”,就是智能辅助驾驶与自动驾驶Robotaxi两个业务线相辅相成,用量产辅助驾驶产生海量数据以训练自动驾驶算法,解决L4完全无人驾驶的长尾问题。同时再用L4的技术赋能L2量产辅助驾驶产品力 的提升,形成技术迭代与数据收集的良性循环。

2019年,Momenta发布了可量产的结构化道路自动驾驶解决方案Mpilot和完全无人驾驶方案MSD。Mpilot即L2智能辅助驾驶,侧重于量产自动驾驶技术的快速演进。

2021年,Momenta凭借两年前和上汽合作预研的记忆泊车项目的契机,Momenta不仅获得了上汽的大笔融资,也拿到了最为关键的首个量产乘用车辅助驾驶车型——智己。

当时在市面上,Momenta的自动驾驶产品状态最接近量产状态,也最接近特斯拉的水平。特斯拉推出了高速NOA方案,而Momenta将其作为对标产品,要开始打造“中国的特斯拉NOA体验”。

在和智己打磨这套量产辅助驾驶方案中,Momenta真正练就了这个高速运转的数据飞轮,也锻造了强大工程化能力。

对于L4自动驾驶,Momenta不仅是和其他Robotaxi公司一样推动少量无人车的城区运营测试,而是更看重数据驱动范式下,通过量产乘用车的数据规模进行AI算法的持续迭代,以及对于闭环自动化流程不断优化打造。

无怪乎,Momenta成为中国最早一批将端到端方案落地的智驾公司。

这一切有迹可循。

据官方透露,Momenta在2019年就开始用Transformer来做预测、路径规划等。到2022年初,Momenta的AD2.0已经在用AI模型做感知的多任务预测,以及开始尝试决策模块的模型化。

2023年上半年发布AD3.0,其感知可以将时序任务整合到同一模型,规划算法转向数据驱动,开始面向成熟量产上车。

2023年下半年,AD4.0可以将感知所有任务整合到同一模型,规划全部数据驱动处理。这一阶段的智驾方案,实质上就相当于两段式端到端。

只不过当时,端到端这个名词,特斯拉还没有喊出来,整个行业对这一词汇都稍显陌生。

2024年3月底,特斯拉正式推出FSD V12端到端方案,然而不到半年,Momenta 也正式发布了AD5.0一段式端到端方案,将感知与规划整合进一个大模型。

这一发难是按照人脑的长短期记忆结构构造的智驾大模型,按照类人直觉和体系,进行快速迭代。

短期记忆用来学习新的数据信息,等到数据和方法被验证后,就会进入长期记忆去学习,最终成为端到端大模型的知识。

这一切仍然还是围绕数据飞轮大模型进行运转,短期记忆围绕数据采集(比如车辆筛选、长尾覆盖),以天级为迭代周期;而长期记忆,围绕数据回流、数据分析、数据标注、模型训练、测试验证等环节,以周级为迭代周期。

现在,Momenta 这个一段式端到端智驾大模型,已经广泛搭载到上汽智己、比亚迪腾势、广汽丰田、昊铂、埃安等车型上面,实现了从感知到规划再到控制的全过程模型化整合,用“无图+端到端”的方式,来实现高速、城市领航辅助、泊车辅助等全场景无图智驾功能。

找到OnePiece:开启Robotaxi的卫冕之战

此时,本文的两大主角都来到了故事的中局——从量产辅助驾驶走向L4自动驾驶,与Waymo路线的老玩家们,一道开启Robotaxi的卫冕之战。

特斯拉宣布要在今年6月底正式在北美推出自己的Robotaxi,第一批可能就10多台,但这次应该真的“狼来了”,不然老马在自动驾驶上的信用账户就真的要破产了。而Momenta也宣布将在25年底推出行业内Robotaxi主驾无人的运营方案,并且联手Uber在2016年进入欧洲市场。

值得一提,特斯拉的Robotaxi还不是之前大张旗鼓发布的去掉驾驶位的概念车,而是基于现有的量产车进行Robotaxi运营。

同样,Momenta特意强调自己的Robotaxi是基于前装量产车型,一方面通过复用量产传感器和计算单元来降低单车成本,另一方面通过“无图技术”,还可实现在各国不同城市道路环境中的快速适配。

预判一下,特斯拉和Momenta会相互成为Robotaxi的劲敌吗?

短时间,应该不会。因为不要忘记在位十年的王者Waymo已经在北美经营已久,而国内的萝卜快跑、小马、文远等L4车队也已经攻城略地。

这是新王挑战旧王的一场战争,也是冲击Robotaxi规模化的卫冕之战。

新的冒险故事再次开启。当年那个被Urmson所嘲笑的渐进式路线的逻辑,如今已然失效——那些练习跳跃的人虽然没有克服地球引力,但是他们进化出了翅膀。

《航海王》里,所有海贼们都奔向了传说中的大宝藏——Onepiece,那是自由与希望的应许之地。那在自动驾驶的伟大航路上,谁能最后摘取Robotaxi这颗最后的王冠明珠呢?

这后半程的故事或许要由特斯拉和Momenta继续书写。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

智能相对论
智能和车,边评边测;未来和家,且品且鉴。合作+V:aixdlun

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)