不要英伟达了，华为补上关键拼图

4月24日，深度求索DeepSeek V4模型发布，明确表示下半年支持华为算力芯片昇腾950。

DeepSeek的早期大模型主要使用英伟达芯片，而华为昇腾芯片与英伟达芯片的架构、编程平台完全不同，可以推断，DeepSeek V4模型在前期结合国产芯片的新产品进行开发，因此才能在产品上线后彻底“支持”。

不过，一个令人迷惑的问题是，2025年第一季度，华为昇腾910C量产，怎么到了今年，产品变成昇腾950了？序号怎么“连不上了”？

从910C到950，短短一年里，昇腾的变化，微妙地反映了整个人工智能领域的变化和趋势。

或者可以这么说：这场始于DeepSeek的AI革命，注定要围绕DeepSeek来重建，而华为昇腾正是这场革命里必须要“顶上”的阵地。

从910C到950，发生了什么？

把华为昇腾芯片的发布时间拉一条横轴，可以清晰看到两个现象：一是从2019年的910A，到2023年的910B，中间隔了4年。漫长的间隔也不难理解，2019年，美国展开对华“科技战”，华为首当其冲。

2019年8月，华为正式推出昇腾910芯片

当时，910A使用的是台积电的7nm增强版EUV工艺，是最先进的7nm制程工艺。随后，华为受到美国的严厉制裁和围堵，无法再采购台积电芯片。直到2023年，使用中芯国际类7nm工艺的910B才得以面世。

2025年第一季度，910C量产。简单来说，910C是2块910B叠加；而没有问世的910D，是4块910B叠加。

但是，2025年初，DeepSeek R1大模型横空出世，让910D没有必要“面世”了。AI算力市场发生了翻天覆地的变化，基于训练的大算力芯片不再吃香，而基于推理的芯片成了市场的真正需求。

因为所有做大模型的人都要掂量一下：搞大模型训练，自己能搞得过深度求索吗？如果你花了很多很多钱、很多很多力气，训练出来的模型比不上DeepSeek，谁会用呢？没人用，你的上亿元的芯片和设备投入，不就打了水漂儿？

图源：pexels

推理端不一样，推理的尽头是生意。DeepSeek是开源的，各家企业拿来做本地部署、专注用户需求，现金流就不用愁。因此，2025年开始，“烧钱买卡换智商”的大模型军备竞赛，转向了“低成本部署、高效率推理”的用户竞争。包括各种火爆的Agent应用，Manus也好，取而代之的OpenClaw也好，都是下沉到用户端的AI应用。

也就是说，推理成为AI界的主流后，训练芯片就成了“时代的弃儿”。昇腾910B、910C，初衷都是全能型大芯片，训练和推理通吃，拉高了成本，必然要转向更适合推理的新产品。

与此同时，由于中芯国际已经实现5nm小规模量产，昇腾的架构优化、软硬协同以及供应链相对稳定，也使芯片不再受工艺制程的影响，可以每年连续迭代。

一是市场需求转换，一是工艺制程稳定，所以，以910B、910C、910D名义出现（910D可能不再出现）而本质是920、930、940的三款芯片，其下一代型号得以恢复为950。

从此，昇腾芯片真正开始“连号了”。

2025年华为公布昇腾AI芯片三年发展路线图

昇腾950，实力如何？

950，实力如何呢？

去年华为全联接大会上，昇腾950亮相，分为针对推理预填充（prefill）制作的950PR，和针对推理解码（decode）制作的950DT。它俩是对标英伟达Rubin架构的关键产品。

2025年9月，昇腾950在华为全联接大会上亮相/截图自@华为

把推理过程拆开，一个是预填充，一个是解码。

预填充的过程，就是大模型“跑”用户的提示词加上下文的过程，这一阶段吞吐大量数据，需要大量算力，NPU或者GPU会疯狂运行，但显存基本是空的。这个过程需要NPU或GPU强，显存不强也没事。

解码的过程，是大模型输出内容的过程，一个字一个字往外蹦。大模型每输出一个字，都要把之前存的参数和“草稿”（KV Cache）从显存里读一遍。此时用不到什么算力，显存在疯狂运行。这时就需要大显存、高带宽。

因为这两个过程里，硬件使用的差异很大，所以很多大模型厂商会“专器专用”，拿专门预填充（prefill）的集群算第一个阶段，再把结果传给专门的解码（decode）集群慢慢“敲答案”。

在工程上，这个做法叫PD分离，可以实现成本与效率的最佳组合。

因此，华为昇腾和英伟达都开发了两种芯片，适应市场的需要。

针对预填充过程，华为昇腾有950PR，算力（FP4）为1.56—2PFLOPS，内存128G—144GB，内存为自研HiBL1.0，内存带宽1.6TB/s，互联带宽2.0TB/s。

英伟达有Rubin CPX，算力（FP4）为20—30PFLOPS，内存128G，内存为GDDR7，内存带宽2.0TB/s。

针对解码过程，华为昇腾有950DT，算力（FP4）为2PFLOPS，内存144GB，内存为HiZQ2.0，内存带宽4.0TB/s，互联带宽2.0TB/s。

对应的英伟达Rubin R200，算力（FP4）为33.3PFLOPS，内存288GB，内存为HBM4，内存带宽20.5TB/s。

昇腾950PR和950DT与前一代昇腾芯片相比，在多个方面进行了提升

二者都在预填充的芯片中使用了更便宜的、消费级的内存，而在解码的芯片中用上了高带宽内存。一年来内存价格飞涨，这种选择性做法可以拉低成本。

从单卡性能看，昇腾950和英伟达的Rubin还是有代差的，R200的算力几乎是950DT的16倍，且HBM4的带宽几乎是HiZQ2.0的5倍。

华为也依然采用“系统级突围”的超节点策略对冲劣势。此次的节点从384升为8192，1个节点对应1个950服务器（标配是1台机器8颗芯片），8192节点意味着该集群支持65536颗（8192X8）昇腾950芯片同时进行一项任务，来对标英伟达的GB200 NVL72。

当然了，问题也是老问题，占地面积过大，功耗也大。

时间问题

单看参数，昇腾950与英伟达的Rubin仍有差距，但在DeepSeek引领的AI新范式下，竞争的规则正在改写。

有了DeepSeek R1以后，中国大模型才敢真正站出来和美国大模型“叫板”。而当今世界，有能力做出世界一流人工智能大模型的，只有中国和美国两家。

DeepSeek-R1在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版/图源：DeepSeek API 文档

对于中国而言，合理的策略是，先保住大模型的一流地位，再考虑芯片的“自力更生”问题，毕竟国产芯片距离台积电的最先进制程，本来也有些距离。

最好的情况是“两者都保”。

深度求索的做法，本身也是出于“两者都保”来发力——虽然没有彻底放弃英伟达，但一年多以来始终立足于国产芯片进行新模型的适配和研发，集合了许多中国人才的力量。

特别是北京大学计算机学院团队TileLang语言的开发，让深度求索得以绕开英伟达绑定的CUDA平台，深入到芯片内核来“压榨”性能，让国产芯片的使用率上了一个大台阶。

从这样的角度看，昇腾950的意义不仅在于性能参数，更在于它是中国AI产业链上自主可控的关键一环。

DeepSeek V4明确支持昇腾950，意味着从模型训练、推理部署到芯片制造，中国已经形成了相对完整的技术闭环，这条闭环的价值，不是单卡算力所能衡量的。

截图自@华为计算

然而，昇腾950要真正在市场站稳脚跟，还是需要解决老生常谈的生态问题——开发者工具链、框架适配、应用案例积累，这些都需要时间。

但至少，中国AI产业不再被“卡脖子”的焦虑困扰。有了DeepSeek这样的一流模型，有了昇腾这样开始持续迭代的芯片，剩下的，就是时间问题了。