3月2日,小鹏汽车第二代 VLA 媒体体验日活动后,小鹏汽车创始人何小鹏与小鹏汽车通用智能中心负责人刘先明参加了媒体群访,围绕新一代智驾技术细节、行业演进趋势、全球化落地与用户体验升级等问题进行了沟通。访谈中,两人系统解读了第二代 VLA 从底层架构到全场景能力的技术突破,明确其面向 L4 时代物理世界大模型的定位,并就驾舱融合、复杂场景应对、智驾大众化普及、技术出海等行业焦点问题作出回应,以下为访谈实录。
Q:小鹏为何建议跳过L3、并向两会提出该建议,是为了我们可以有一个更领先的技术吗?第二代VLA到底能够做到什么程度?是已经完全可以达到L4,还是在什么样的阶段?第二代VLA将来的落地情况会是怎样的?具体会搭载到哪些车型上?
何小鹏:第一个问题,我认为L4开始就会有新的责任主体,在今天全球科技发展的情况下,基本上从L2的下一个台阶就是L4,中间专门加一个L3实际对于硬件、软件、法律法规都是挑战,所以从我的角度来看,我认为中国应该一个是L2,一个是L4。
第三个问题,我们所有的Ultra和Ultra SE都会都会搭载第二代 VLA,你可理解为未来小鹏在全球市场的车型,将会提供基础智能辅助驾驶和顶级智能辅助驾驶两种选择。
刘先明:第二个问题,现在到底做到什么水平。目前还没有完全说自己能达到百分之百的L4,但是现在整个VLA2.0搭建了一套非常通用并且高效的架构,所以基本上每天都会有新的版本出来,不停地去迭代新的问题,而且进步速度也是超乎我们想象的,所以我们有信心,在未来的一段时间内能做到L4水平的一套比较完整的体系。
具体的时间可能还没有办法给出完全的判断,1到3年是大师兄给出的判断,我们的判断是如果按每一天迭代的速度比前一天快,看到整个训练速度和数据规模曲线是加速上升的状态,如果我们一直维持这个状态的话,我相信会很快。
Q:小鹏为什么会把智能座舱和智能驾驶合并,形成这样的组织架构调整?目前这种变化似乎也是车企中正在发生的趋势,小鹏汽车这次调整与其他车企有什么不同?
何小鹏:我相信汽车领域很快会迎来跨域融合。从机器人领域可以看到,机器人甚至可以没有底盘,它的全身控制、全身动力、全身的线束和汽车不完全一致。汽车行业正在进入新的跨域阶段:自动驾驶是整车运动,智能座舱是整车大脑,再加上动力、底盘,我们认为这四个域都在进行跨域融合中。
未来L4或Robotaxi车型,很多厂商会从原来单一域的集成(比如一个域由多家供应商集成,或单独一个域研发),转向跨域融合。这样能让整车更快、更安全、更灵敏,能力提升数倍,从被动使用转向主动服务。所以,先明负责的通用智能中心,正是跨域融合进程中的一部分。这也是我非常坚信1—3年全自动驾驶会落地、3—5年所有汽车都会成为强力超级智能体。
Q:第二代VLA出海方面,您提到目前在瑞典的case使用云端模型进行仿真训练。特斯拉在做中国FSD时,也是通过网络视频、仿真训练等方式推进,我们如何避免出现类似特斯拉 “水土不服” 的问题?
刘先明:第二代 VLA 模型在没有经过任何海外数据适配训练的情况下,从今天大师兄发布的视频里可以看到,已经具备很强的能力。第二,小鹏是一家全球化企业,我们会在合规前提下,在全球任何有小鹏车辆的地方正常拥有并使用当地数据。第三,对于更多泛化性场景,通过世界模型的生成方式,也可以让我们快速达到一个能力起始点。
所以整个小鹏全球化自动驾驶的策略,一定是这几点结合在一起:模型本身要有极强的泛化能力,不能只依赖中国数据、只能在中国跑,这个事情是行不通的;再加上小鹏的全球化布局,以及我们在技术上的突破。
Q:自动驾驶的模型训练大家都在用人类的数据去做模仿学习,但从去年开始,很多人就在谈人类数据其实价值不大了,小鹏觉得如今人类数据还有它的价值吗?
何小鹏:我觉得物理世界、人类世界的数据量现在来看是无限的。
以前我觉得有10万台、100万台车跑了多少公里就够了,现在我觉得远远不够。很多人说我有车队、我有公司,车卖得多就有很多数据,这些都是错误的。如何收集有质量、有价值、超大规模的数据,我觉得是非常困难的一点。不论是汽车还是机器人,这件事上都远远没有看到头,这是我的看法。
刘先明:目前我们还没有看到明显的收敛趋势,就是增加人类数据,模型的基础能力不会下降。今天也提到,模型本身的体量还在不断上升,我们在联合优化芯片、编译器和模型本身来提升效率,也会进一步推升模型规模。这两者一定是相辅相成的,数据没有到头,模型规模也没有到头。
大师兄提到的数据质量和价值,确实是目前特别难的问题。数据每天都可以收上来,但存储成本高,而且很多也用不上。所以怎么挖掘真实世界里真正好用的数据,是一个会一直被探索的问题。
Q:目前市场上算力军备竞赛宣传愈演愈烈,友商之间在疯狂堆算力,但很多用户实际体验后发现,算力大幅提升,体感提升却没有数值增长那么明显,问题大概出在哪?小鹏全栈自研在算力使用效率上有哪些长板?
刘先明:其实今天我们分享的内容里,很大一部分就在讲这件事。算力不只是名义上的数字好看,更重要的是把算力用好,这是核心问题。这也是我们从通用处理器向专用处理器ASIC过渡的原因。其实你看NVIDIA(英伟达),就是在GPU和CUDA时代做这件事 —— 把算力用好,比单纯说算力提升多少倍更有价值。所以算力不仅要大,用好才是核心关键。
另外,大算力一定需要更高信息密度的输入、更大的模型来匹配,否则算力就是空转。这些因素合在一起就意味着:如果只是搞算力军备竞赛、单纯堆高数值,消费者是感受不到明显的体感提升的。一定是多方面协同推进,不能只看单一指标。
全栈自研的到底有多大用处?如果没有全栈自研,大家就看不到现在这么丝滑、安心的体验,这套能力也不可能真正部署上车,可能看到的还只是以小模型在车上以较低效率运行。全栈自研最大的好处,就是我们从硬件层、软件层、模型层从头重新定义整套体系,让它完全服务于我们的应用场景和最终上车落地的模型。
Q:第二代的VLA在你们看来领先行业有多少?依据是哪些?另外它能不能解决一直以来智驾的一个问题,就是用智驾来促进消费者最后的购买决策?
何小鹏:我觉得领先多少见仁见智。
通过我们内部比较测评,我认为比行业一流选手领先接近5倍,无论是接近率、安心丝滑度,还是支持的可达范围。
我认为在这个领域里,今年、明年、后年,大家最终看到的最重要指标,是多少天没有碰过方向盘,也就是接管次数,这对用户最重要。
今天我专门提到,现在在停车场,特别是地下停车场,一键起步、原地起步、自动漫游开出来,我觉得还没达到主路上95分的水平,大概60分。我刚和先明聊天,期望未来几个月把它也做到95分。也就是说一上车它问我去公司吗?我说对今天做牛马,按一个键,就自动启动,自己开过去。
无论停车场、小区,收费站闸口,主路、辅路、公司园区,全部搞定。到了公司我下车,它自己开进去。我相信政策法规一旦通过,马上就能支持。这些才是我们的最高标准。
全场景都能开、完全放心、超高效率,这才是我们做自动驾驶的目标。到那时,车能自动充电,喝了酒可以坐后排,让它带你回家,各种功能都会实现。我认为这才是最重要的。而今天绝大部分L2,都只在有限场景,需要随时监管,很多Corner case场景下会刹停、暂停,甚至完全不能开,一定会让人不安心、不放心。
Q:刚才提到第二代VLA要到3月和4月通过OTA推送到客户端,现在国内很多特别是以小鹏为代表的新能源汽车企业,他们很多都是通过OTA的形式来不断地增加汽车新的功能,这个在海外的汽车企业当中,有一种想法通过收费的OTA能够使汽车除了整车销售之后还可以通过软件升级获得收益。我们知道目前国内包括小鹏在内OTA好像都是不收费的,想问一下今后有没有这样的想法,通过收费OTA能够使得企业的利益增厚?大概在什么样的时候?通过什么样的功能能够达到这个目的?
何小鹏:将来海外自动辅助驾驶升级到L4,或者更高等级的自动驾驶的时候,我认为很有可能会从次费变成月费,这是一个非常重要的趋势,因为不是百分之百的人都需要自动辅助驾驶,需要的人付费,不需要的人就可以不付费,这是一个蛮不错的选择。将来我们在海外甚至在中国,随着我们的AI能力的变化,一定会产生一些变化。
Q:在资源和组织带宽有限的情况下,小鹏今年的业务有什么优先级吗?如果到2026年底回顾整个一年表现的话,您觉得哪件事做成的话会觉得今年是赢了的?
何小鹏:我觉得作为一个汽车企业,痛苦他要平衡。一件事做成是不够的,比如销量到达,好不好?好,也不及格。我认为,汽车这个商业模型不好,销量是抖动的,很难精准;加上销量毛利太低,销量到达不了彼岸。所以销量好不好?很好,但是不够。我觉得组织能力的建设和改变是非常重要的。
第二是创建物理AI的AI体系,这个也非常重要。今天只是AI在自动驾驶、汽车领域的第一步落地,但是在智能座舱、机器人、飞行汽车的落地还没有。
第三个小鹏在全球化上做得非常深,明年大家会看到我们的效果。
Q:在模型训练过程中,“安心、场景、效率”这三个关键词是否存在取舍,是否有明确的优先级排序?
何小鹏:AI不是一个规则,它很难在最开始把这个需求提得很清晰。但从我们现在自己研发以及现在在进行训练的方案,安心排第一,因为安全、放心、舒服、舒心是我们认为最重要的。
如果一定要我排序,安心大于场景,场景大于效率。但是效率和聪明这个点,因为更聪明才有更高的效率,我相信在我们后面的版本也会有比较大的增强。
Q:第二代VLA属于非典型架构范式的世界模型,具备一定对物理世界的感知、理解、预测能力。这种新范式会不会成为未来主流?是否所有企业都会朝这个方向发展?
刘先明:我先来说关于世界模型和VLA的问题。大家一直在纠结这两个概念,实际上我们真的需要那么多概念吗?可能不需要,今天我们一直在说的一件事,我们本质上在做一个体系,原生多模的模型,不仅可以出动作,也可以出其他的。
世界模型其实本质上是对世界3D空间的理解、运动规律的理解,最终以一种形式展现出来,这个和VLA本质没有什么太大的区别,就是你想把一个车开好,让机器人控制得好,或者让功能做得好,首先先要去理解这个世界的3D空间,理解整个推演的规律,并且能向前去推演,评价什么动作是有风险的,什么动作是没有风险的,这个是我们的一些看法,不见得是对的,但是至少目前我们在朝着这个方向努力,这是第一个问题。