天极大咖秀

登录 | 申请注册

理想闯入智驾“无人区”

光锥智能 2025-05-12 阅读: 415 次

文|刘俊宏

编|王一粟

“DeepSeek一开源,我们就加速了 9 个月的时间”。

距离上一次AI Talk130天,作为车圈最高年薪的老板、理想汽车创始人、董事长兼CEO李想,再次发布了理想最新的智驾大模型——MindVLA(视觉-语言-动作)大模型。

这款大模型曾在今年3月的英伟达GTC上亮相过,相比两个月前的“炫技”,这次李想讲了不少VLA的技术细节和产品表现。

与理想上一代的端到端+VLM智驾对比,VLA不再是之前相互独立的“双系统”架构,而是一个具有智驾能力的多模态大模型。得益于训练时添加的自动驾驶资料和人类文字语料,VLA终于实现了类似人类司机开车的表现。

“ VLA是一个司机大模型,像人类的司机一样去工作的一个模型。”

正如李想所总结,根据本次公布的视频显示,基于VLA的辅助驾驶系统可以允许驾驶员用更灵活的方式完成人机共驾。一句话,智驾可以实现自动选路、掉头、转弯、停在指定停车场的位置等等。智驾的灵活度,显著超出了当前主流智驾厂商所能提供的体验。

“它是最接近人类的,甚至有机会超过人类”,李想如此总结这VLA的能力和未来。同时,身处智驾安全性被市场怀疑的风口浪尖,李想认为VLA技术有机会为整个行业带来转机,“我觉得黎明马上就要来了”。

在整个智能汽车时代,理想是一家特立独行的玩家。

瞄准智能汽车“终点”的玩家有很多。认为汽车智能化的前提是充足的电动化,蔚来立志要把换电站建满全国每一个角落;认为汽车工业的终点是规模与成本,比亚迪极致掌控生产的每一个环节;认为汽车智能化就是将智能铺满每一个角落,华为要当中国智能汽车的“博世”。

一直奔波于用户需求的理想,在不断积累的AI技术中,慢慢也构筑了自己的技术护城河。

VLA到底是什么?在研发VLA的过程中,都有哪些技术细节?中国智能汽车厂商将在智驾研发中收获什么?从理想的VLA中,我们看到了李想对智能汽车的“终极计划”。

“第十个包子”,一个大模型支撑起智驾

端到端刚不到一年,智驾的架构又迭代了。

在理想这次AI Talk上,李想详细讲述了之前发布的VLA技术——用更大的模型来“装下”整个世界。

相比之前“端到端+视觉”两套模型的架构,这次是一个模型全部解决,视觉-语言-动作的三合一架构。

一个大模型支撑智驾,已经成为智能汽车的最新趋势。

4月中旬,小鹏汽车也在香港披露了最新的智驾技术路线,用一个超大模型底座,支撑起整个智驾,再通过蒸馏落地到智能汽车的端侧。

显然,这里有头部技术大牛的英雄所见略同。

回顾理想智驾的技术变化,经历了从规则算法、端到端+VLM,直到VLA的“三级跳”。可以清晰地看出,AI是如何逐步解决智驾中的研发痛点。

在端到端时代,AI解决的是人力写规则的痛点。由于端到端训练模式相当于用AI来生成规则,节省了大量开发时间。所以,去年整个智能汽车市场一下子冒出不少宣称能落地城市无图NOA的玩家。

但端到端对人类的模仿,终究难以超过人类的驾驶水平,智驾要想进一步升级,需要AI充当能思考的“大脑”。理想在端到端+VLM中,用了“快慢双系统”的架构来让智驾获得深度思考能力。VLM是一个多模态大模型,能够针对复杂场景进行更智能地“理解”。在看懂世界之后,VLM能调整端到端的行为,从而实现模拟人类大脑的“简单反射与复杂反射”。

但是“双系统”的架构毕竟还是不够灵活,相互独立的双系统架构难以联合训练。再加上VLM性能受到车端算力和芯片通信效率限制。实际推理效率达不到5赫兹的表现,很难做到实时推理。

要想进一步提升端到端+VLM架构的能力,需要拿出一个更加整体的、能力足够强的、有快速推理能力的智驾大模型。

“我们对Deepseek R1从上线到后面开源都做了相当多的研究和拥抱。DeepSeek 的速度比想象中快,所以VLA到来的速度也比想象中快。”

诚如李想在访谈中所言。理想在参考Deepseek的调整预训练数据结构+后训练+强化训练的“三板斧”后,也拿出了对标人类智能的“司机大模型”——VLA。

“训练VLA的过程,特别像人去驾校学开车”,李想总结说。

在预训练阶段,理想重新调整了VLA的训练预料,增加了3D和自动驾驶相关图文数据,并适当减少文史类数据的“投喂”。训练之后,VLA基本上能够媲美云厂商的通用大模型了。

为了让VLA提升输出效率,理想重新调整了MoE混合专家架构,并对推理过程做了稀疏化处理。这一步操作,相当于VLA直接用AI整理好的资料来决策,大大缩短了推理耗时。

在后训练阶段中,理想保留了“快慢思考”的思维模型。

VLA的“快思考”模式不再直接输出操控指令,而是输出Action token(执行代码)。“慢思考”模式则是精简了CoT(思维链),保证了模型的推理速度。面对复杂场景,“慢系统”还会模拟出汽车行驶轨迹,用类似人类“边做边想”的方式,在驾驶中不断选择最合适的路线。

最后的强化训练,说白了就是用人的标准来评价VLA的驾驶表现。大致就是设计一些指标,车开得舒服了,就给VLA加分;开得不舒服了或者违章了,就扣一分。一套下来,VLA就能学会怎样成为一个“真正的司机”。

“我觉得VLA(司机大模型),就是完全人类的运作方式了。”

正如李想的总结,“(VLA)有language(语言),也有它的CoT(思维链),还有推理的能力,它能够像人类一样地,真正地去执行这样的行动”。对比自动驾驶早期规则和端到端时代的技术,李想认为VLA的突破,甚至可以将前两个时代类比为“昆虫智能”和“哺乳动物智能”。

既然VLA这么强,是不是意味着其他智驾厂商也能快速跟进。甚至没有智驾研发经验的传统车企也能跨过端到端,一步到位到VLA?

跳过端到端实现 VLA 根本不可行,“没有办法直接吃第十个包子。虽然可能大家觉得第十个包子吃饱了,但前面每个包子其实都跳不过去”。

随后李想顿了顿,又总结了AI技术积累的重要性,“如果大家不想做前面任何包子的积累,只想吃第十个包子,就像是练葵花宝典。”

两年4级跳,理想的技术“开天眼了”?

从2023年底,理想推送需要先验信息的全场景NOA,到如今发布VLA。理想到底是怎么实现智驾能力“两年4级跳”的?

关于这个问题,光锥智能在今年的上海车展上几乎问遍了每一个智驾供应商,但很可惜没人说得清。其中一些智驾供应商工作人员还评价说,“就像是开天眼了一样”。

对于事务做出一针见血、穿透本质的判断,再沿着正确的方向找到最短到达的路径。或许,这是理想能最快突破50万辆年销量,并且在两年内智驾快速发展到第一梯队的最重要的一个原因。

在几次和李想及理想智驾团队深度沟通的过程中,光锥智能发现这种思维方式贯穿了许多理想解决问题时的方式。

“当我们想去构建能力的时候,DeepSeek给你展示了一个最佳实践,第一步一定要先搞研究。就是任何的时候,当我们想去改变能力和提升能力的时候,第一步一定是搞研究,研究完了才搞研发。”

正如李想评价从Deepseek上学到的经验——理想在研发VLA的时候,很多关键技术节点的迭代都算得上是“相互支撑”和“不谋而合”。

作为佐证,李想在智驾团队在芯片上优化FP8(8 位浮点数格式)的时候,跟谢炎(理想汽车CTO)达成意见一致要训练一个语言模型。但没想到陈伟(理想汽车基座模型负责人)早就已经这么想了。“陈伟比我们还坚决”,李想说。

为什么李想能够发现软件基础相当重要?因为在开发VLM的时候,积累了软件底层开发能力。“本来Orin芯片是不支持跑语言模型的。但因为英伟达没时间,所以我们自己写了底层推理引擎”,李想回忆说。

如此一来,理想的汽车操作系统(星环OS)和基座大模型战略也串联了起来。

针对芯片底层推理引擎的开发,让理想意识到了智驾芯片底层数据传输的逻辑。星环OS架构的搭建方式,就是围绕智驾到车控这条通道而建设的。理想目前开源的,也正是车控操作系统、智能驾驶操作系统、通信中间件、虚拟化平台这四个组件。

另一边,由于VLA算是一个通用多模态大模型,所以理想的整个汽车座舱也打通了语言与智驾之间的隔阂。

在演示中看到,在辅助驾驶状态下,驾驶员说出驾驶指令,车辆就能立马执行。无论是说走人工还是前面左转,汽车都能在保持正常辅助驾驶的前提下,执行新路线。

对比目前主流其他智驾厂商,VLA当前展现的能力称得上是“遥遥领先”。当其他智驾要驾驶员停车重新设置目标点的时候,理想不仅能保持流畅行车状态,而且还不需要司机说出具体的目的地。

“它变得更像人。其实没什么惊奇的,你都知道它的原理了”。

正如李想所总结,“你跟司机怎么说话,那就怎么跟司机Agent说。短指令的话,VLA直接就能在车端处理了。长指令交给云端模型处理,然后再由VLA执行。”当智驾能看懂世界、理解语言,还能懂你意思,VLA就变成了司机Agent。车辆成为能与用户沟通、理解用户意图的智能体。

如果说,去年发布端到端+VLM时候的理想,是想要炫耀端到端的能力。那么,如今的理想已经通过AI基础技术研发,构建起了软件能力的护城河。

但AI基础研究的路线到底能通往哪里?李想不太能确定,“我觉得没有办法预测,我们前面没有任何人走过这条路。DeepSeek没走过,OpenAI、谷歌、Waymo也没有走过这条路。”

“我们其实走的是一个无人区”。

理想和中国智能汽车,共闯无人区

其实在整个智能汽车时代,中国汽车行业的玩家都是在“无人区”中摸索着前进。

到底什么样的汽车才算是智能汽车?车企要如何竞争才能取得时代胜利?近五年间,我们见证过太多“答案”。

瞄准智能汽车“终点”的玩家有很多。认为汽车智能化的前提是充足的电动化,蔚来立志要把换电站建满全国每一个角落;认为汽车工业的终点是规模与成本,比亚迪极致掌控生产的每一个环节;认为汽车智能化就是将智能铺满每一个角落,华为要当中国智能汽车的“博世”。

“理想的基因是为用户创造价值。”

正如李想在访谈中所言,今年即将迎来十岁生日的理想,走的是与行业其他玩家与众不同的路子——在满足用户的需求中,在不断地解决问题中成长。

例如在汽车电动化及相关配套设施还不完善的时期,理想先推出了增程式的车型满足用户需求。用“冰箱彩电沙发”定义了早期汽车智能的“模板”。而彼时的汽车行业还在纠结,增程式到底是不是落后技术,“冰箱彩电沙发”到底算不算是“花架子”。

站在2025年的上海车展上,“冰箱彩电沙发”早已成了每一辆新车的标配。汽车行业也早就没了关于增程技术落后的讨论,反而是不少消费者“要求”纯电汽车品牌也推出增程式版本。

“到了今天,还能看到至少有5个的企业是因为当时理想L9的成功,在打造跟理想L9相同的产品。”李想说。

专注满足用户需求的结果,就是理想汽车在过去的五年中,合计卖出超过100万辆车。李想今年年初的内部信,定下了2025年要占据20%中国智能电动车市场份额的目标。换算下来,销量要达到160万辆。

“我只能做最好的自己,在自己长板的延长线上来做,而延长线最终带来了无人区。”

诚如李想所说,理想的成就是不断延长自身优势的结果。但如果我们用更大的尺度观察中国汽车行业。中国智能汽车行业如今领先全球的盛况,其实也是各家车企不断探索自身“长板”的结果。

二十年前,中国汽车想要实现技术突破非常困难。在全球汽车巨头早已搭建好的利益关系网中,任何中国车企技术研发都要面临国际技术专利的壁垒。想要拿下技术授权,想要在海外销售自主品牌,就得仿照吉利收购沃尔沃。

在智能汽车时代,如今的中国汽车产业链已经有不少玩家“不怎么在乎”国际巨头的技术封锁了。

例如在智驾上,中国已经有不少厂商开始了对外输出(小鹏、地平线、Momenta、华为等)。在汽车OS的设计上,不只是理想的星环OS,还有不少芯片厂商也参与了车机系统的设计,例如地平线的HSD界面、鸿蒙车机等。在国外汽车巨头最自豪的底盘调教环节中,比亚迪、华为、蔚来等玩家在用智能底盘攻城略地。

要知道,过去中国汽车产业链用的几乎都是国际巨头们已经“给好”的模板。

“我觉得DeepSeek的出现,对我们加速做VLA是巨大的帮助。”谈到为什么决定开源星环OS,李想感慨万分,“我们受到了那么大的帮助,所以在想我们能对社会做点什么贡献”。

光锥智能大致看了下开源文件,readme文件(可以理解为是说明书)写的比较详细,理想真的想让大家用起来。

当前,汽车操作系统已经被提升到智能汽车“新三大件”,理想的星环OS大概率不会像Deepseek一样,被各大汽车厂商“拿来就用”。但对于汽车行业来说,有星环OS作为参考,一定是一件好事。

越开放、越上升,这样的技术和产业的螺旋式升级,不只发生在智能汽车和AI产业链里,最终,将润物细无声般地渗透到中国经济的方方面面。

光锥智能
关注AI产业,关注千行百业的智能化

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)