从堆算力到求高效,智驾算力真的越高越好吗?

[首发于智驾最前沿微信公众号]在汽车智能化转型的下半场,算力已经从单纯的硬件参数演变为衡量一款车型智能化水平的关键指标。所谓算力,就是车载计算平台在单位时间内能够执行的计算操作次数,它决定了车辆能否在复杂的道路环境中看得清、想得快并动得准。随着自动驾驶等级从基础的驾驶辅助向高度自动驾驶甚至完全自动驾驶迈进,算力的角色正在经历从辅助工具到核心驱动力的方向转变。

从2026年北京车展上也可以看到,汽车行业已从整车单点性能全面升级为算力+算法+数据+生态的全产业链生态对决,理想L9 Livis搭载2颗自研5nm马赫100芯片,综合算力2560TOPS;蔚来ES9搭载自研神玑芯片,算力超1000TOPS;小鹏GX则宣称配备4颗自研图灵AI芯片,本地有效算力达3000TOPS。这些数字的背后,标志着算力已成为车企智能化竞争的核心。

wKgZPGoY5TqADtibAAAQo00DEvw810.jpg

算力的作用是什么?

要理解算力的作用,必须先清楚自动驾驶系统的基本运作逻辑。一个典型的自动驾驶系统由感知、决策、规划和控制四个核心环节组成。在感知环节,车辆搭载的摄像头、激光雷达和毫米波雷达传感器会产生海量的原始数据。

以一个高清摄像头为例,其每秒产生的原始图像数据量可能高达数百兆比特。此时算力的作用就非常重要,其会对这些非结构化的数据进行实时解析。这就要求芯片具备极高的并行处理能力,通过复杂的神经网络算法,在毫秒级的时间内识别出道路上的行人、车辆、车道线以及交通灯的状态。

在这一过程中,算力是支撑感知算法从二维图像向三维空间投影的物理基础,也是实现全方位环境建模的前提。

图片源自:网络

随着感知技术从早期的简单目标检测向现在的BEV(鸟瞰图)和占用网络演进,算力的消耗量呈现出指数级增长。从CNN到Transformer+BEV,算力需求从20~30TFLOPS直接跃升至200+TFLOPS,增幅接近一个数量级。

随着感知技术从早期的简单目标检测向现在的BEV(鸟瞰图)和占用网络演进,算力的消耗量呈现出指数级增长,Transformer架构的引入则进一步推高了算力需求。

BEV架构要求将多个不同视角的摄像头画面统一转化到一个空间坐标系下,这高度依赖Transformer的注意力机制,它能让系统像人眼一样,通过对比不同传感器在不同时间点的数据,聚焦关键信息,建立起对环境的深度理解。这种机制虽然显著提升了感知的准确性和鲁棒性,但其背后涉及的空间变换和矩阵运算量极其惊人,对车载芯片的瞬间吞吐能力提出了极高要求。

有研究指出,与传统CNN相比,Transformer的计算需求量提升了约100倍,但其中90%以上的计算需求贡献的价值很低,导致大量功耗被白白浪费。以小鹏G6的XNGP系统为例,仅BEV模块就消耗了60%的算力资源,城市NOA运行时双Orin-X芯片功耗接近40W,导致续航也有所缩水。

图片源自:网络

极氪千里浩瀚智驾系统的算力分配也印证了这一点,在其双Orin-X方案中,BEV网络占用200TOPS,Occupancy网络占用150TOPS,强化学习(RL)模块占用100TOPS,剩余算力才用于冗余备份。在感知之后的决策与规划阶段,算力则扮演着逻辑推理者的角色。

自动驾驶系统还需要根据感知到的动态环境,预测周围行人或车辆在未来几秒内的可能路径,并计算出一条最安全、最平稳且最符合交通规则的行驶轨迹。在城市场景中,由于参与者众多且行为极具不确定性,系统每秒钟可能需要模拟数千种可能的驾驶路径并从中筛选出最优解。

这种大规模的路径搜索和概率计算,同样需要强大的计算资源作为支撑。如果算力不足,系统可能会出现决策迟滞,导致车辆在复杂路口驻足不前,甚至因为无法及时响应突发状况而引发安全风险。因此,算力在这一阶段是保障行驶效率与安全性的核心屏障。

算力越高就越好吗?

在谈及算力时,经常会提及TOPS(每秒万亿次操作)这一指标,那么算力是否越高越好?其实在很多公布的数据中,标称的TOPS数值代表的是芯片在理想状态下的峰值理论性能,但在实际应用中,芯片的真实表现会受到有效算力利用率的制约,这就引出了一个核心概念,即算力利用率。

有行业实测数据显示,传统通用GPU架构由于大量晶体管用于指令调度而非有效计算,实际算力利用率普遍不足40%。更严峻的是,通用芯片超过70%的功耗花在了数据搬运上,真正用于计算的功耗不到30%,标称算力的实际利用率通常只有25%-35%。

如果一个芯片标称有500 TOPS,但由于其内部架构与当前主流的算法不匹配,或者在数据流转过程中出现了阻塞,就会导致其只能发挥出50 TOPS的效能,那么再高的标称数字也将失去意义。因此,衡量算力的优劣不仅要看总量,更要看其单位功耗下的有效输出,即PPA(功耗、性能、面积)的综合平衡。

图片源自:网络

当前阻碍算力充分发挥的一个主要瓶颈是存储墙问题,在自动驾驶的计算任务中,数据需要在计算核心与存储单元之间频繁往返。随着模型规模的增大,数据的搬运量激增,如果芯片的内存带宽跟不上计算核心的速度,计算单元就会因为等待数据而处于闲置状态。

对于Transformer架构的智驾大模型,90%的性能瓶颈从来不是计算单元的算力不够,而是算存分离架构带来的内存墙问题。通用芯片的传统架构里,计算单元和存储单元会完全割裂,Transformer推理所需的权重和特征数据绝大部分存在片外DRAM里,每次计算都要进行长途搬运。

就有研究显示,在传统的CNN架构中,计算与带宽的需求比例为100:1到1000:1之间,但在Transformer架构下,这一比例显著缩小到了1:1到10:1。这意味着芯片的片上带宽和总线速度正逐渐取代峰值算力,成为制约系统性能的真正瓶颈。

如果硬件架构没有针对Transformer的计算特性进行底层重构,单纯增加计算单元只会造成硬件资源的极大浪费。正因如此,行业开始从单纯堆算力转向追求有效算力。

wKgZO2oY5TyALUo2AABv9xKi8js750.jpg

图片源自:网络

蔚来神玑NX9031芯片就是一个量产上车、从底层实现近存计算架构的车规智驾芯片,它将95%以上的Transformer数据访问全部限制在片内完成,片外DRAM访问量直接降低87%,峰值算力利用率高达92%,这意味着其标称1000TOPS的INT8算力,实际可用稳定算力可达920TOPS;而4颗Orin X标称总算力1008TOPS,在30%的实际利用率下,可用算力只有300TOPS出头。这正是架构创新带来一颗打四颗效果的根本原因。

此外,软件与硬件的协同优化也决定了算力效能的关键。为了让算法在有限的资源下跑得更快,开发者会采用剪枝和量化技术。剪枝技术通过识别并剔除神经网络中那些对最终结果贡献较小的神经元或连接,减少了模型的计算复杂度和权重存储空间。量化技术则是将原本高精度(如32位浮点数)的计算转化为低精度(如8位整数)的运算,从而大幅提升计算速度并降低功耗。

这些技术虽然能减轻算力压力,但它们高度依赖芯片硬件对特定计算模式的支持。一款优秀的自动驾驶芯片应该是针对特定算法量身定制的加速器,就像是地平线的BPU架构就是专门为神经网络设计的,它在处理特定感知任务时,效能比通用的GPU要高出许多。

芯片架构类型 算力灵活性 有效利用率(针对AI) 典型功耗表现
通用GPU 极高(可运行各类模型) 中等(数据搬运开销大) 较高(通常100W以上)
专用ASIC(如BPU) 中等(需硬件适配算法) 极高(针对性流水线) 极低(通常30-40W)
传统的FPGA 高(硬件可重编程) 较高 中等
车载NPU 较低(专注矩阵运算)

不同架构芯片在处理自动驾驶任务时的效能特征对比

wKgZPGoY5T2ASDLNAAASG3BOmsQ962.jpg

算力应如何适配硬件?

算力并不是凭空产生的,其背后是实实在在的能源消耗。对于电动汽车而言,车载计算平台、传感器以及散热系统共同组成了巨大的用电负荷,这直接影响了车辆的续航里程。在开启高级别自动驾驶功能的情况下,计算系统的功耗更会使电动汽车的续航里程下降显著。

在城市拥堵路况下,由于行驶速度慢、环境复杂度高,计算平台长时间处于高负载运作状态,续航降幅甚至可能达到30%。这种智能与节能之间的冲突,使得车企在规划算力方案时必须保持克制,寻找一个足以支撑功能需求但又不过度消耗能源的节点。

除了对电量的消耗,高算力带来的散热问题同样棘手。高性能芯片在满负荷运作时会产生大量的热量。如果散热不畅,芯片会因为过热而触发限频保护,导致算力瞬间跌落,这在对实时性要求极高的自动驾驶场景中是极其危险的。

为了解决这一问题,很多高端车型不得不引入昂贵且复杂的液冷系统,这不仅增加了车辆的硬件成本,也增加了系统的总重量。因此,算力的高必须建立在高效的基础上。

wKgZO2oY5T6AYqx8AEASN_5zzys632.jpg

图片源自:网络

这一点在产业实践中已得到充分验证。英伟达基于Blackwell架构的AGX Thor芯片,虽然算力高达2070 FP4 TFLOPS,但功耗控制在130瓦,实现了极高的能效比,这也是其能支撑L4级智驾与生成式AI的关键所在。

在车载环境下,每一瓦特的电能都极其珍贵,追求极低功耗下的高性能(高TOPS/W)才是芯片研发的终极目标。过于冗余的算力如果不能转化为显著的体验提升,反而会成为续航和成本的负担。

自动驾驶算力的爆发式增长也会对环境产生影响,如果全球范围内的大型车队都配备高功耗的计算平台,其产生的温室气体排放量将不容小觑。就有一些研究指出,如果未来有十亿辆自动驾驶汽车每天行驶一小时,其计算机功耗产生的碳排放甚至可能与全球现有的数据中心总量相当。

这一背景下,开发更节能的算法和更先进的半导体制程,不仅是出于商业成本的考量,更是为了实现自动驾驶技术的可持续发展。当前,通过多传感器融合、减少冗余计算以及优化交通流管理,自动驾驶系统在某些情况下可以抵消一部分自身功耗带来的负面影响,实现整体能效的提升。

wKgZPGoY5T-ANnUNAAASAJELks8782.jpg

数据驱动时代的云端算力与端到端演进

随着自动驾驶技术进入端到端大模型时代,算力的竞争赛道也在发生改变。所谓的端到端,是指通过一个单一的深度学习模型,直接将传感器的图像信号转化为车辆的控制信号。

这种架构不仅代表了自动驾驶从代码驱动向数据驱动的转变,更对算力提出了全生命周期的需求。在这一阶段,算力不再局限于车端,更大量地向云端智算中心倾斜。云端算力负责消化从全球车辆收集回来的千万级驾驶数据,通过不断的模拟与训练,让模型像人类一样掌握处理复杂极端场景的能力。

行业普遍认为端到端千卡是门槛,万卡是入场券,没有万卡以上的计算规模,很难在端到端技术的竞争中保持第一梯队。小鹏汽车自动驾驶负责人李力耘透露,小鹏已建成国内汽车行业首个万卡智算集群,算力储备达到10 EFLOPS,集群利用率常年高达90%以上,从云到端的全链路迭代周期可达平均5天一次。小鹏用于训练基座模型的视频数据量高达2000万clips,这一数字在2026年将增加到2亿clips。

wKgZO2oY5UCANXpeANjglQ9o894024.jpg

图片源自:网络

此时,云端的算力规模直接决定了算法迭代的频率和天花板的高度。在云端,算力的竞赛已经演变为一场资金与资源的竞争。进入2026年,自动驾驶规则模块化的小模型时代已经结束,下半场是大模型即物理世界的基座模型。

为了训练千亿参数级别的自动驾驶模型,头部企业正在建立拥有数万张高性能GPU的计算集群。这种超大规模的计算资源能够模拟出人类驾驶一辈子都难以遇到的罕见工况,并让模型在短时间内完成学习。

而在车端,端到端模型虽然能够减少对高精地图的依赖并处理更复杂的交互,但其推理过程的黑盒特性和计算负载仍然是一个挑战。为了确保安全,许多车企采用了递进式的演进策略,从感知的端到端逐步过渡到全流程的端到端,同时在车端保留必要的计算冗余作为安全守护。

值得关注的是,端到端时代产业界对于算力需求的判断也在持续分化。面向L3、L4级自动驾驶,车端算力需求仍将显著攀升。车百会理事长张永伟预计,2026年起伴随世界模型及L3上车,车端算力将快速突破1000TOPS;至2028年,L3/L4量产或推动算力需求达2000TOPS以上。

wKgZPGoY5USAB8UOAAadZZ1MXyI979.jpg

图片源自:网络

黑芝麻智能创始人兼CEO单记章则指出,智能汽车的底层逻辑正从功能驱动迈向物理AI驱动,VLA模型配合世界模型将成为高阶智能驾驶的最佳解决方案,世界模型可以推演未来5至10秒内各个目标的交互,大幅提升驾驶水平。而地平线创始人余凯则给出了更长周期的时间表,2028年行业实现100%脱手驾驶,2030年进入L4区间,2035年进入睡着开的终局。

在产业实践中,算力的普惠化正在加速推进。轻舟智航基于地平线单征程6M芯片(仅128TOPS)的城市NOA方案已实现量产上车,方案验证了用更小算力承载高水平城市NOA的可行性。卓驭科技更进一步,推出7V+32TOPS芯片组合方案,目标让售价10万元以下的A0级电动车也能标配智能辅助驾驶功能。

在算力供给端,英伟达Thor芯片(单颗2000TOPS)已与比亚迪、理想、极氪、小米等车企达成合作并进入量产阶段,小马智行更基于双Thor配置推出算力高达4000 FP4 TFLOPS的下一代L4级自动驾驶域控制器,加速Robotaxi的大规模商业化部署。黑芝麻智能华山A2000家族覆盖200TOPS至1000TOPS全场景算力,其创始人单记章透露2026年芯片出货量将远超千万颗。

wKgZO2oY5UWAK4GFAAARwcz1hbg739.jpg

最后的话

未来,自动驾驶的算力需求仍将保持增长,但其形态将趋于理性和多元。算力的增长不再是单纯追求数值的领先,而是向着更精准的业务场景收敛。未来的汽车将是一个移动的智能终端,其算力分配将实现车端与云端的动态平衡,车端算力负责实时决策与安全兜底,追求极速响应与极致能效;云端算力负责深度学习与知识进化,追求规模效应与模型涌现。

只有当算力、算法与数据这三者达成深度的协同平衡,自动驾驶才能真正走出实验室,成为每一个普通消费者都能享受到、且用得起的安全出行方案。算力作为这项技术的数字引擎,其最终价值在于将复杂隐藏在底层,留给用户简单、自然且可靠的驾驶体验。

审核编辑 黄宇

  • 随机文章
  • 热门文章

您可以还会对下面的文章感兴趣:

暂无相关文章