
不要英伟达了,华为补上关键拼图
4月24日,深度求索DeepSeek V4模型发布,明确表示下半年支持华为算力芯片昇腾950。
DeepSeek的早期大模型主要使用英伟达芯片,而华为昇腾芯片与英伟达芯片的架构、编程平台完全不同,可以推断,DeepSeek V4模型在前期结合国产芯片的新产品进行开发,因此才能在产品上线后彻底“支持”。
不过,一个令人迷惑的问题是,2025年第一季度,华为昇腾910C量产,怎么到了今年,产品变成昇腾950了?序号怎么“连不上了”?
从910C到950,短短一年里,昇腾的变化,微妙地反映了整个人工智能领域的变化和趋势。
或者可以这么说:这场始于DeepSeek的AI革命,注定要围绕DeepSeek来重建,而华为昇腾正是这场革命里必须要“顶上”的阵地。

从910C到950,发生了什么?
把华为昇腾芯片的发布时间拉一条横轴,可以清晰看到两个现象:一是从2019年的910A,到2023年的910B,中间隔了4年。漫长的间隔也不难理解,2019年,美国展开对华“科技战”,华为首当其冲。

2019年8月,华为正式推出昇腾910芯片
当时,910A使用的是台积电的7nm增强版EUV工艺,是最先进的7nm制程工艺。随后,华为受到美国的严厉制裁和围堵,无法再采购台积电芯片。直到2023年,使用中芯国际类7nm工艺的910B才得以面世。
2025年第一季度,910C量产。简单来说,910C是2块910B叠加;而没有问世的910D,是4块910B叠加。
但是,2025年初,DeepSeek R1大模型横空出世,让910D没有必要“面世”了。AI算力市场发生了翻天覆地的变化,基于训练的大算力芯片不再吃香,而基于推理的芯片成了市场的真正需求。
因为所有做大模型的人都要掂量一下:搞大模型训练,自己能搞得过深度求索吗?如果你花了很多很多钱、很多很多力气,训练出来的模型比不上DeepSeek,谁会用呢?没人用,你的上亿元的芯片和设备投入,不就打了水漂儿?

图源:pexels
推理端不一样,推理的尽头是生意。DeepSeek是开源的,各家企业拿来做本地部署、专注用户需求,现金流就不用愁。因此,2025年开始,“烧钱买卡换智商”的大模型军备竞赛,转向了“低成本部署、高效率推理”的用户竞争。包括各种火爆的Agent应用,Manus也好,取而代之的OpenClaw也好,都是下沉到用户端的AI应用。
也就是说,推理成为AI界的主流后,训练芯片就成了“时代的弃儿”。昇腾910B、910C,初衷都是全能型大芯片,训练和推理通吃,拉高了成本,必然要转向更适合推理的新产品。
与此同时,由于中芯国际已经实现5nm小规模量产,昇腾的架构优化、软硬协同以及供应链相对稳定,也使芯片不再受工艺制程的影响,可以每年连续迭代。
一是市场需求转换,一是工艺制程稳定,所以,以910B、910C、910D名义出现(910D可能不再出现)而本质是920、930、940的三款芯片,其下一代型号得以恢复为950。
从此,昇腾芯片真正开始“连号了”。

2025年华为公布昇腾AI芯片三年发展路线图

昇腾950,实力如何?
950,实力如何呢?
去年华为全联接大会上,昇腾950亮相,分为针对推理预填充(prefill)制作的950PR,和针对推理解码(decode)制作的950DT。它俩是对标英伟达Rubin架构的关键产品。

2025年9月,昇腾950在华为全联接大会上亮相/截图自@华为
把推理过程拆开,一个是预填充,一个是解码。
预填充的过程,就是大模型“跑”用户的提示词加上下文的过程,这一阶段吞吐大量数据,需要大量算力,NPU或者GPU会疯狂运行,但显存基本是空的。这个过程需要NPU或GPU强,显存不强也没事。
解码的过程,是大模型输出内容的过程,一个字一个字往外蹦。大模型每输出一个字,都要把之前存的参数和“草稿”(KV Cache)从显存里读一遍。此时用不到什么算力,显存在疯狂运行。这时就需要大显存、高带宽。
因为这两个过程里,硬件使用的差异很大,所以很多大模型厂商会“专器专用”,拿专门预填充(prefill)的集群算第一个阶段,再把结果传给专门的解码(decode)集群慢慢“敲答案”。
在工程上,这个做法叫PD分离,可以实现成本与效率的最佳组合。
因此,华为昇腾和英伟达都开发了两种芯片,适应市场的需要。
针对预填充过程,华为昇腾有950PR,算力(FP4)为1.56—2PFLOPS,内存128G—144GB,内存为自研HiBL1.0,内存带宽1.6TB/s,互联带宽2.0TB/s。
英伟达有Rubin CPX,算力(FP4)为20—30PFLOPS,内存128G,内存为GDDR7,内存带宽2.0TB/s。
针对解码过程,华为昇腾有950DT,算力(FP4)为2PFLOPS,内存144GB,内存为HiZQ2.0,内存带宽4.0TB/s,互联带宽2.0TB/s。
对应的英伟达Rubin R200,算力(FP4)为33.3PFLOPS,内存288GB,内存为HBM4,内存带宽20.5TB/s。

昇腾950PR和950DT与前一代昇腾芯片相比,在多个方面进行了提升
二者都在预填充的芯片中使用了更便宜的、消费级的内存,而在解码的芯片中用上了高带宽内存。一年来内存价格飞涨,这种选择性做法可以拉低成本。
从单卡性能看,昇腾950和英伟达的Rubin还是有代差的,R200的算力几乎是950DT的16倍,且HBM4的带宽几乎是HiZQ2.0的5倍。
华为也依然采用“系统级突围”的超节点策略对冲劣势。此次的节点从384升为8192,1个节点对应1个950服务器(标配是1台机器8颗芯片),8192节点意味着该集群支持65536颗(8192X8)昇腾950芯片同时进行一项任务,来对标英伟达的GB200 NVL72。
当然了,问题也是老问题,占地面积过大,功耗也大。

时间问题
单看参数,昇腾950与英伟达的Rubin仍有差距,但在DeepSeek引领的AI新范式下,竞争的规则正在改写。
有了DeepSeek R1以后,中国大模型才敢真正站出来和美国大模型“叫板”。而当今世界,有能力做出世界一流人工智能大模型的,只有中国和美国两家。

DeepSeek-R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版/图源:DeepSeek API 文档
对于中国而言,合理的策略是,先保住大模型的一流地位,再考虑芯片的“自力更生”问题,毕竟国产芯片距离台积电的最先进制程,本来也有些距离。
最好的情况是“两者都保”。
深度求索的做法,本身也是出于“两者都保”来发力——虽然没有彻底放弃英伟达,但一年多以来始终立足于国产芯片进行新模型的适配和研发,集合了许多中国人才的力量。
特别是北京大学计算机学院团队TileLang语言的开发,让深度求索得以绕开英伟达绑定的CUDA平台,深入到芯片内核来“压榨”性能,让国产芯片的使用率上了一个大台阶。
从这样的角度看,昇腾950的意义不仅在于性能参数,更在于它是中国AI产业链上自主可控的关键一环。
DeepSeek V4明确支持昇腾950,意味着从模型训练、推理部署到芯片制造,中国已经形成了相对完整的技术闭环,这条闭环的价值,不是单卡算力所能衡量的。

截图自@华为计算
然而,昇腾950要真正在市场站稳脚跟,还是需要解决老生常谈的生态问题——开发者工具链、框架适配、应用案例积累,这些都需要时间。
但至少,中国AI产业不再被“卡脖子”的焦虑困扰。有了DeepSeek这样的一流模型,有了昇腾这样开始持续迭代的芯片,剩下的,就是时间问题了。