然而,也有不少人认为,人们尚未充分认识到理想 i8 的核心优势。理想汽车同步发布了 VLA 驾驶员大模型,并计划将其同步升级至所有 AD Max 车型,涵盖 Thor-U 平台和 Orin-X 平台。这意味着,不仅 i8 的用户,大量理想汽车的车主也将在第一时间体验到 VLA 驾驶员大模型的智能驾驶能力。
VLA 司机大模型有何独特之处?今天,我们将结合上周基于 i8 的 VLA 司机大模型的试驾体验,简要探讨这一问题。
BEV → 端到端 + VLM → VLA
可以说,理想在过去几年中,每年都在智能驾驶领域有重大进展。前年推出了 BEV 技术,去年则是端到端 + VLM,而今年则推出了 VLA。对于不了解内情的人来说,可能会觉得理想每年都在推出新的概念,让人感觉需要不断“深造”才能跟上。然而,实际上这三年的进展是循序渐进的,每一步都在同一条技术路线上稳步提升。
VLA 代表了三个层面的结合,分别是:V 代表 Vision(视觉),L 代表 Language(语言),A 代表 Action(行动)。若要打通这三代路径,BEV 的本质是鸟瞰视图,对应视觉层面的大模型。而端到端 + VLM 则是两者的融合,端到端结合了视觉和行动两个层面的大模型,VLM 则是视觉语言大模型。简而言之,在这一阶段,VLA 的三个层面均已出现,但尚未在单一维度内实现完整结合。
因此,端到端与 VLM 的结合本质上是模仿学习。李想本人也将这一双系统架构比喻为“猴子开车”,尽管智能驾驶能力得到了显著提升,但仍未能达到顶级职业司机的水平。而 VLA 则采用了强化学习的方法,解决了端到端模仿学习缺乏深度逻辑思维的问题,打破了端到端与 VLM 之间的沟通障碍。以端到端与 VLM 的上限为起点,VLA 进一步提升了整体智能驾驶的表现。
思考、沟通、记忆与自我学习
在这一能力的加持下,VLA 司机大模型在思考、沟通、记忆和自我学习四个方面均有所提升,在实际路面表现中,于某些场景下展现出与以往不同的特点。
例如,最直观的一个感受是,VLA 司机大模型在大屏上能够展示完整的 CoT 推理过程。理想汽车的工程师也反馈,即使没有 CoT,直接让模型进行决策也是完全可行的。然而,理想汽车希望在决策较为复杂或路口场景较为丰富的情况下,展示模型的多步骤思考和决策过程,以此与用户建立沟通和信任。
此外,VLA 司机大模型在理解语义指令方面确实有了显著提升。在实际试驾过程中,令人印象深刻的是,在完成靠边停车后,用户还可以提出“向前再行驶 XX 米”等具体要求,这展示了 VLA 司机大模型对距离的精准判断和控制能力。实际上,人眼对距离的判断往往不如模型准确。在试驾过程中,就曾出现过我希望车辆向前移动 30 米,但实际 30 米处已有其他障碍物占据的情况。
在 workshop 的演示中,有一个类似的场景:我们可以通过语音助手向 VLA 司机大模型发出指令,例如「在蓝色车前方靠边停一下」。这一指令展示了 VLA 在三个层面的统一调度能力,无论是颜色识别、距离判断还是周围障碍物的识别,VLA 均表现出色,令人满意。
同样地,在记忆功能方面,理想是通过语音助手实现诸如「在这条路上以后保持 XX 速度」的指令,并能够记住这一路段。这并不意味着该功能已经完美无缺。在一次研讨会上,一位媒体老师提出了一个有趣的问题:如果用户在这条路上设置的记忆指令是保持 70 公里/小时的速度,而这条路非常长且路况复杂多变,那么这个记忆指令是会完整适配整条路,还是仅在特定路段生效呢?
当然,大家不必过于担心。在 VLA 司机大模型中,根据实际路面情况做出判断是必备技能。记住,喜好是一方面,而确保安全则是更为重要的指标。
因此,在许多情况下,面对 VLA 司机大模型,我们确实可以通过简单的语音指令实现驾驶,这与 VLA 司机大模型旨在成为更优秀的家庭司机的理念相契合。然而,如果驾驶可以通过语音指令完成,后排乘客或同乘者是否也能通过语音助手参与驾驶过程呢?针对这一问题,理想汽车早已做出了预防措施,通过语音定位技术,屏蔽了除主驾驶座以外的其他座位发出的所有与驾驶相关的指令。
数据、算法、算力与工程能力
在研讨会中,理想自动驾驶高级算法专家詹锟反复强调了四点:数据、算法、算力和工程能力。这四点对于理想率先推出 VLA 具有重要意义。
在销量增长的推动下,理想汽车的有效数据已在上个月达到了12亿公里。凭借海量的用户行驶数据,理想汽车具备强大的数据生成能力,能够在仿真环境中创建无数的Corner Case,从而全面提升模型训练和评估的效率,缩短测试周期,降低测试成本。同时,13 EFLOPS的强大算力为这种复杂的训练和仿真提供了坚实的算力支持。
一项数据清晰地展示了理想在研发 VLA 司机大模型方面的效率优势:2023 年,理想在自动驾驶评测上的成本为每公里 18.4 元;去年,这一成本已降至 4.84 元/公里;而今年上半年,成本进一步压缩至 0.53 元/公里。此外,今年上半年,通过仿真测试,理想已完成超过 4000 万公里的评测,这一数字是去年全年的 8 倍。
在此基础上,我们自然会产生这样的好奇:VLA 司机大模型的上限究竟在哪里?詹锟认为,这取决于模型、芯片和数据三者的共同进化。随着大模型推理效率的提升和芯片算力的增强,VLA 在处理未知场景时的 Few-shot 能力将日益增强。或许不久的将来,它就能识别全国各地各种不同的红绿灯信号,并准确判断大部分交警的手势,成为一名真正的资深司机。