首页 > 新能源汽车

理想 i8 的秘密武器:VLA 首发背后的数据、工程与组织准备

来源:新能源网
时间:2025-08-02 13:00:36
热度:

2025年08月02日关于理想 i8 的秘密武器:VLA 首发背后的数据、工程与组织准备的最新消息:过去五年间,理想汽车在智能驾驶领域长期扮演着追赶者的角色。从依赖高精地图到转向“轻地图”策略,再到最终的去地图化,其技术路线几经更迭,却始终未能跻身行业第一

过去五年间,理想汽车在智能驾驶领域长期扮演着追赶者的角色。从依赖高精地图到转向“轻地图”策略,再到最终的去地图化,其技术路线几经更迭,却始终未能跻身行业第一梯队。

7 月 29 日晚,理想 i8 正式上市,售价 32.18 万元至 36.98 万元,这是理想的首款纯电 SUV。与多年前切入增程赛道时不同,如今纯电领域的技术探索已相当深入,理想难以找到真正的空白地带开辟新赛道。这次他们尝试瞄准用户还有痛点的地方,做突围。补能效率、智驾。

随着 i8 上市,理想首发了 VLA(Vision 视觉 - Language 语言 -Action 行动),早于所有对手。i8 上市前夕,我们与几位同行,一起同理想自动驾驶的几位研发负责人进行了一次深入对话。

文|曹琳 冒诗阳

汽车像素(ID:autopix)原创

对话嘉宾

理想汽车自动驾驶研发高级副总裁 郎咸朋博士;

理想汽车自动驾驶高级算法专家 詹锟;

理想汽车自动驾驶高级算法专家 湛逸飞。

01.如何配合 i8 的产品定位

你觉得VLA能给 i8 的产品力加分多少?

郎咸朋首先 i8 是非常好的车,其次对于 VLA 模型的整个工程化部署以及相关软硬件调试,我们花了大量精力,不夸张地说,至少在驾驶的舒适度上,肯定比原来大家体验过的理想汽车都要好。

我们当然也希望 VLA 会成为用户购买 i8 的一个非常重要的因素,同时也会致力于首先让之前用过理想智驾的老用户有个非常好的体验升级,其次也希望有更多没有用过辅助驾驶、自动驾驶的用户一上来就会对智驾有很好的感受和新鲜感。

你们真的相信纯电的用户会更加在意智驾吗?

郎咸朋现在新购车的人对智驾的要求,我觉得一年前可能问这个问题大家还有点质疑,但现在我相信特别是新购车的用户智驾一定是排在它的首选要素里的,像去年麦肯锡的调研基本上都是第一或第二的购车要素。我们市场部的同学是做过调研的,并且给到我的反馈肯定是需要,都是排在首选 Top3 里的。

效率、舒适和安全,理想汽车的 VLA 目前在当前阶段最先优化的指标是哪一个?

郎咸朋有一个指标是 MPA,也就是指发生事故的里程。理想车主的人驾数据是 60 万公里左右出一次事故,而在使用辅助驾驶功能的情况下是 350 到 400 万公里发生一次事故。这个里程数据我们还会持续提升,我们的目标是将 MPA 能提升到人类驾驶的 10 倍,也就是比人驾安全 10 倍,我们希望在辅助驾驶功能下能够做到 600 万公里才出一次事故,但这必须等到 VLA 模型提升之后才能做到。

但行业提的最多的是 MPI,强调做到更少的人工接管,这是评价智驾技术水平一个更显性的指标。

郎咸朋我们也做过分析,可能一些安全风险问题会导致接管,但有时候舒适度不好也会导致接管,比如急刹、重刹等,因为并不一定每次都会遇到安全风险,但是如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。

效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。

刚才试乘 i8 的时候,我们遇到一个场景,很窄的双向道上,我们右手边有一个三轮车,我们让试驾车向左变道, 这需要跨到对向车道才能完成指令,但是 VLA 没有过去。我听讲解员说,以前的版本是可以过去的,现在不可以过去。这是为什么?

詹锟VLA 是一个更好的家庭司机,无论在什么情况下,我们还是会以安全、舒适、安心的价值观来对齐它。所以在这种情况下去跨逆行车道,我们是不建议的。但是如果需要微调出这样的版本,在技术上肯定是可以的,但是我们还是希望能给到一个更安全、更安心的驾驶体验。如果后面有机会,我们会做一些更好的风格或者是尝试。

▍理想 i8

VLA 和过去通常所说的端到端大模型的本质区别是什么?

郎咸朋我们认为 VLA 模型是可以走向更高级别的自动驾驶,但它现在处于起步阶段,在这个技术周期里,起步阶段 VLA 模型约等于端到端的上限,它还有很长一段路要走。

但我认为这个过程不会特别慢,因为端到端从 10MPI 到现在 100MPI 只用了一年左右的时间,我相信 VLA 的迭代速度也会非常快,可能我们明年坐在这儿的时候它已经迭代到 1000MPI 了。去年我和大家沟通过,当时很多人也认为不太可能,但我们的确做到了。

为什么一定要等到 i8 交付才推送 VLA?很多竞争对手也在抢第一。

郎咸朋我们一定会比友商早,我们一定是第一个。

02.如何翻盘

是否可以用更通俗的方式,介绍一下车企做成 VLA 模型的难度在哪里?

郎咸朋曾经也有很多人问过,如果车企想做 VLA 模型是不是可以跳过前面的规则算法,跳过端到端阶段,我认为是不行的。虽然 VLA 的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。

理想汽车之所以能够落地 VLA 模型,是因为我们有 12 亿数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。

什么时候开始意识到数据的重要性?

郎咸朋5 年前确实理想作为一个追随者进入了自研的自动驾驶赛道,但我们对自动驾驶的思考并不是从 2020 年开始的,我们刚进理想的时候,当时李想面试的时候跟我聊,说你觉得最重要的是什么,比如想在自动驾驶做成功或者做到第一?

我说现在来看就是数据,虽然说别的都很重要,但数据必须要提前开始准备,我们是从理想 ONE 开始做数据闭环的。2020 年我们通过第一个完整的交付年,累计了 1500 万左右的有效回传数据,我们确实做了很多数据标注,样本是从这积累出来的。

理想之前一直是自研智驾领域的差生,为什么能用一年时间翻盘?

郎咸朋其实还是站在巨人的肩膀上,如果再往前走,整个行业如果从规则算法走到端到端的话,我可以说走了 10 年左右,但是从端到端开始迭代会非常快,因为那时候整个工程、整个数据都会成熟起来,到 VLA,我认为也是这样一个速度,大家可能现在感觉 VLA 还没有什么感觉,就是做了一个比端到端稍微好一点的一个感受,但一年之后你看到一个 1000MPI 的产品放在你面前的时候,相信大家都会觉得自动驾驶真的开来了。

在研 VLA 的车企很多,虽然理想现在抢到了首发,但你是否担心其他车企利用后发优势弯道超车?就像理想过去一年做到的那样。

郎咸朋从去年端到端开始,业界或我们的竞争对手真正把理想自动驾驶当回事了,但他们为时已晚,因为这些能力建设不是一天两天就能完全建立起来或者达到我们效果的,今年开始做 VLA,我们是第一个提出并马上是第一个交付的,很多人还在嘴上说,还在用端到端的方式去做 VLA。

如果还是沿着端到端思路去做所谓 VLA 的话,你的速度一定会变慢,不管是 1000 万还是 2000 万,哪怕是 1 个亿的 Clips,首先这么大参数量,需要多大的训练算力,模型得搞到多大先不说。另外,你的迭代速度会变慢。

理想今年实车测试只有 2 万公里,请问大幅减少实车测试的依据是什么?理想汽车的保有量在新势力中算是多的,为什么要放弃自己的优势?

郎咸朋现在的超级版本和理想 i8 的 VLA 版本中 90% 以上的测试都是仿真测试。我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试。

通常行业的做法是保持实测测试规模,大幅增加仿真测试做增量。理想是否过于激进了?

郎咸朋仿真测试效果好,成本低,为什么不用仿真测试呢?我们保留实车测试是为了一些必要内容,任何技术的提升一定伴随着研发流程的变革,工业时代来临后,刀耕火种的流程被机械化替代,在自动驾驶时代也是一样,端到端时代来临后,我们进入了使用 AI 技术做自动驾驶的方式,而进入了 VLA 大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果这其中仍有大量的实车和人工介入,速度是会降低的。并不是我们一定要替代实车测试,而是这项技术,这个方案本身就要求要使用仿真测试,如果不这样做,并不是在做强化学习,并不是在做 VLA 模型。

仿真测试过程中,能 100% 复原现实物理世界么?

湛逸飞我们在 2024 年还是进行了 150 多万公里的实车测试,实际上我们那时候就已经具备了世界模型仿真能力,我们在用这 150 多万公里的实车测试来验证仿真环境的可靠性。

最初世界模型仿真复现率或真实性是存在问题的,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然并没有达到 100%,但准确率也可以在 99.9% 以上。

近期理想汽车发布了 OTA7.5 版本,VLA 很快就发布了,做这个版本还有什么意义?

郎咸朋OTA7.5 版本发布了超级对齐,它对 VLA 的意义就是它为 VLA 积攒了很多评测场景和数据,假设其他团队在做 VLA 模型,单纯评测就是一项挑战,需要积累很多的场景。我们在 VLA 模型中能够快速迭代的原因是 VLA 评测就像之前的实车评测一样,在实车评测时大家都有自己的方式和场景,我们的 VLA 仿真评测已经在超级对齐里做好了基础,现在已经有超过 40 多万个场景评测了,我们还会持续补充。

理想做 VLA 的时候,有踩过什么坑?

郎咸朋我们一直认知还是比较好的,小坑肯定有,比如算力储备的多少、交付快点慢点等,小的工程细节、优化,肯定各家都会遇到。我觉得遇到小坑其实没有问题,但不要遇到大的判断失误,我觉得我们运气还是可以的。

▍郎咸朋

如果竞争对手也推出了 VLA,即便时间点晚于理想,但追平的速度是否也会很快?

郎咸朋VLA 模型的迭代速度也会非常快,但前提是要有完备的基础能力,如算法、算力和数据等,并且要有工程能力的支撑才能够实现。尤其 VLA 的训练和端到端是不一样的,它需要更多的和成熟和仿真环境来进行强化学习的训练,和之前只是单纯依靠实车的数据模仿学习训练是完全不同的。

它的技术壁垒有多大?

郎咸朋技术壁垒肯定是有,理想最核心的技术壁垒还是世界模型仿真的壁垒,这个壁垒是非常高的,别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以是很难超越我们的。

VLA 带给理想的领先,能保持多久?

郎咸朋我们组织并不是大家想象的是一个职能性的组织,还是 IPD 组织,可以理解成是一个大的项目的形式,虽然大家都在现在部门里可能有一些部门的分工、分配,但不管去年做端到端,还是前年做无图,还是今年做 VLA,都是成立了内部项目组来做,对我们来说,组织挑战倒还好,因为大家这么多年也比较习惯于这种项目制的研发了,而且这反而成为我们一种优势,端到端去年是 180 个人,今年 VLA 稍微多一点,200 多个人,其实并不是弄几千人去做,我觉得不需要,我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。

03.压榨车端算力

一些竞争对手最近推出的新车,车载算力比 i8 更高,你有感受到压力吗?

郎咸朋实际上算力和量化精度是相关的,也就是如何使用芯片。如果使用精度比较高的表达方式,等效算力或有效算力会低一些,但如果使用更好的量化精度,算力就会高。因为我们不清楚其它企业的量化精度,所以很难评判。

我们在车载算力上有更加长期的规划,但现在不方便透露。

他们的做法是自研芯片、自研算法,这样匹配度会很高。

郎咸朋自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用 Thor 芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体 VLA 迭代过程中依然有变化的可能性,所以我们依然在用 Thor 芯片。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。

英伟达的 Thor 是通用芯片,基于它去做算力压榨,是可以实现的吗?

詹锟我们从去年开始用 Orin 芯片做大模型部署,当时英伟达觉得这是不可能的,但我们认为这是必须要要做的,和英伟达做了非常详细的剖析和拆解,我们的工程团队、部署团队做了非常多的工作,包括我们魔改 CUDA 的底层,重写 PTX 底层指令,才能实现现在的效果。

理想汽车自动驾驶团队的工程部署能力是一以贯之的,其中很关键的一点是我们打磨细节的能力,芯片能否被压榨最主要的事做底层分析,解决瓶颈热点。大家会发现 VLA 从最初推理一帧需要 500-600 毫秒到最后实现 10Hz,提升了近 10 倍的效率,这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片目前的能力更匹配。大家会常用的推理模型会用 FP16,我们把它降到 FP8,性能做了非常的提升,同时 FP4 也是英伟达在最新的 Blackwell 架构中非常推崇的,我们会进一步把芯片算力压榨出来。

配合 Thor 芯片上车的过程,应该也不太容易。

郎咸朋我们是第一次用 Thor 芯片上车的,我们也是在过去 L9 的时候,第一个用 Orin 芯片。再往前,我们是第一个用 J3 芯片。其实我们积累的很多跟芯片厂商的供应商的这种合作经验,包括再往前推算 J3 芯片,当时 J3 芯片设计很有缺陷。但是我们会跟合作伙伴一起,去做一些优化和迭代,这都是很正常的一个过程。

我们也知道,芯片的产生,它需要有很多输入,我们也在新的芯片研发过程当中,我们也给它提供很多输入,比如 J3 上的问题,它在 J5 上解决了;Orin-X 问题,可能在 Thor 上解决了,Thor 上问题可能也会在其他的方面去解决。我觉得这是一个正常的研发过程,主要还是看最终的应用情况。

如何做到将精度从 FP16 降至 FP8 时,还能保持模型精度?

詹锟首先这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么,大家看到 DeepSeek 开始推它的 FP8,为什么以前做不到?也是因为模型参数规模过大,对它的容错变低了,它通过更多的层,更多的数据容量,把之前的异常值降的越来越少,这是大模型一个特性,这也是为什么到 VLM、VLA 领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上去靠近。

另一个很重要的,我们还是做了大量的数据清洗。以往出现这种数据噪点还是因为有脏数据,但是我们这里面做了大量的数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、变得收敛,这也是目前像大语言模型大家常规的迭代方向。

未来有没有可能做到 FP4?那样相当于 Thor 的有效算力又翻了一倍。

詹锟如果你想做 FP4,要在训练上花更多精力,做更多的数据迭代、数据清洗,才能往这方面做。目前我们也在做这样的尝试,很快就可以再把 Thor 芯片的算力进一步压榨出来。

04.目标完成一半

VLA 是一次人工智能领域中的技术创新,还是一次工程领域的创新?

詹锟VLA 不只是工程方面的创新,大家如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,这本质就是提出了一个 VLA 算法,我们的 VLA 模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出,也是最早开始实践的。

但对于自动驾驶而言,很大的挑战是必须要有工程创新。因为 VLA 是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为 VLA 不好,而是因为 VLA 部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。

感受层面,VLA 大模型开车会比端到端的体验好一点,但现在还不多,它的意义是什么。

詹锟相对于端到端大模型,VLA 模型是有思考能力的,这是它不可否认的一个优势。刚刚反复强调在 VLA 里面,L(Language)是非常重要的。我们也认为,自动驾驶想要往 L4 或者往更高的能力前进,L 是一个必经之路。现在无论是大语言模型,还是其他的模型,也都开始做端到端的 L。我们在去年年底的时候,意识到这个过程,所以我们在大力的去发展 L,而且目前也在 VLA 里面有很多应用。

所以现在的 VLA,和理想同学智能体,未来会统一成一个架构吗?

詹锟我们相信 VLA 在未来会形成一个更大的、统一的架构。我们也觉得 VLA 是在对物理世界 AI 落地来说,是非常好、非常一致性的前瞻技术,并不仅仅是自动驾驶,可能是物理 AI 目前看到最合理的一个方向。

所以 VLA 不只是 L4 智能驾驶的起点,你们判断它也是人工智能的起点,有计划把它用在其他的硬件上吗,比如机器人?

郎咸朋这肯定是可以拓展的,我们也成立了各种其他的机器人部门。VLA 是一个很好的具身智能的技术框架,可能可以延续到其他方向。

什么时候能实现更高层级的智能体,比如 AI Agent?

郎咸朋之前我们确实有一个司机 Agent 的说法,但是我们现在把它又迭代了一下,我们认为 VLA 先专注于提供一个好的司机,我们叫家庭司机。先把车开好,Agent 的能力,我觉得后面再结合其他应用去做。我们现在分析各种 AI Agent 体验和 Agent 的产品,我们认为还是属于比较初级的阶段。

车端部署 VLA 大模型的时候,是否需要有一些轻量化、更小的版本,比如通过蒸馏?

詹锟在部署时的效率和蒸馏上我们做了非常多平衡。我们的基座模型是自研的 8 乘以 0.4B 的 MoE 模型,这是业界没有的,我们在深入分析英伟达芯片后,发现这个架构非常适合它,推理速度快的同时模型容量大,能够同时容纳不同场景、不同能力的大模型,这是我们在架构上的选择。

另外,我们是大模型蒸馏出来的,我们最早训练了一个 32B 的云端大模型,它容纳了海量的知识和驾驶能力,我们把它做出的思考和推理流程蒸馏到 3.2B 的 MoE 模型上,配合 Vision 和 Action,使用了 Diffusion。我们用这样的方法做了非常多的优化。

从细节上来看,我们也针对 Diffusion 做了工程优化,并不是直接使用标准 Diffusion,而是进行了推理的压缩,可以理解为一种蒸馏。以前 Diffusion 可能要推理 10 步骤,我们使用了 flow matching 流匹配只需要推理 2 步就可以了,这方面的压缩也是导致我们真正能够(在车端)部署 VLA 的本质原因。

刚才试乘试驾的时候,对 i8 说前进 5 米,VLA 就真的能让 i8 精确的前进 5 米。这是因为特意做过训练么?

詹锟我们不会单纯地让模型学习向前走 10m、12m 这样生硬的数据,但是在海量的通识数据中,有很多对物理空间的理解。比如前方白车距离多少米,前方路沿和我有多少距离,而且现在大模型也已经加入很多物理空间的知识,包括现在的 ChatGPT、千问都具备这样的能力,把这些能力在大模型里学习之后,我们只需要在 Action 中把它体现出来。当我们把海量数据喂给它以后,这些数据具备组合泛化能力,并不是教什么学什么,当量级达到一定规模时,会涌现出一些能力,包括行为。

我们很多能力和知识就是各个学科交叉的融合,我们也非常关注现在大模型的进展,随时可以向自动驾驶上迁移。

(为便于阅读,本文的提问部分经重新编辑。回答部分在不影响原意的基础上,仅做小幅改动。)

本文为汽车像素(autopix)原创内容未经授权,请勿转载

原文标题:理想 i8 的秘密武器VLA 首发背后的数据、工程与组织准备