Meta交出答卷：砸143亿请来的29岁华人CEO，9个月后发布了什么？

扎克伯格在AI上花了多少钱？

143亿美元，只为一个人。这个人叫Alexandr Wang，今年29岁。

他是Scale AI的联合创始人兼CEO，19岁从MIT辍学创业，把Scale做成了AI数据标注领域的绝对霸主。

2025年6月，Meta以143亿美元收购Scale AI 49%的非投票权股份。作为交易的一部分，Wang卸任Scale CEO，加入Meta出任首席AI官（Chief AI Officer），领导一个全新部门——Meta Superintelligence Labs（MSL）。

这不是一次普通的高管跳槽。这是Meta AI战略的一次彻底换血。

随后发生的事，才是真正值得关注的。

29岁CEO + 华人科学家天团Wang上任后的第一件事，不是发布模型，而是挖人。

而且挖的全是OpenAI的顶级研究员。

赵晟佳（Shengjia Zhao），宁夏人，清华毕业，斯坦福博士。2022年加入OpenAI，三年间参与了ChatGPT、GPT-4、GPT-4o、o1、o3、o4-mini、GPT-4.5以及Operator推理框架的核心研发。他曾与OpenAI联合创始人Ilya Sutskever紧密合作。

2025年7月，扎克伯格亲自宣布赵晟佳出任MSL首席科学家。据华尔街报道，其年薪超过1亿美元。

Jason Wei，"思维链提示"（Chain-of-Thought Prompting）论文的第一作者，先后在Google Brain和OpenAI工作，专注于推理模型（o1、o3）和深度研究（Deep Research）。同样在2025年7月加入MSL。

与此同时，一位图灵奖得主正在离开。

Yann LeCun，Meta首席AI科学家，深度学习三巨头之一，开源AI最坚定的拥护者。2025年11月，他正式宣布离开Meta，创办自己的AI创业公司Ami Labs，目标估值35亿美元。

一边是1亿美元年薪挖来OpenAI的核心力量，一边是图灵奖得主黯然离场。

Meta的AI路线，正在经历一场哲学层面的根本转向。

从零重建：9个月的技术豪赌

Wang加入MSL后做了一个大胆的决定：不基于Llama的任何代码。

从零开始，重建整套AI技术栈。

包括全新的基础设施、全新的模型架构、全新的数据管线。

这在整个AI行业里几乎是闻所未闻的。通常情况下，新模型都是在已有架构上迭代优化。但Wang选择了推倒重来。

他在X上写道：

"九个月前，我们从零开始重构了整套AI技术栈。Muse Spark正是这一系列工作的成果，如今它已成为Meta AI的核心驱动力。"

2026年4月8日，Muse Spark正式上线。

这是MSL成立以来的第一个模型，也是Meta历史上第一个闭源前沿模型。

闭源——这两个字，对Meta来说意义重大。

从Llama 1到Llama 4，Meta一直是开源AI的旗手。Llama系列的开源策略为Meta赢得了巨大的开发者生态和行业声望。而Muse Spark的闭源，意味着Meta正式放弃了这个立场。

Meta目前的说法是"双轨制"：Llama继续服务开源社区，Muse负责前沿竞争。

但开源社区的信任一旦失去，还能回来吗？

Muse Spark到底强不强？

先看数据。

HealthBench Hard（医学推理基准测试）：42.8%，排名第一，超过Gemini 3.1、GPT-5.4和Claude Opus 4.6。

CharXiv Reasoning（图表理解）：Contemplating模式下得分86.4，超过Gemini和Claude。

Humanity's Last Exam（人类终极考试）：Contemplating模式58%。

FrontierScience Research（前沿科学研究）：Contemplating模式38%。

Artificial Analysis Intelligence Index v4.0：综合排名第4（得分52），排在Gemini 3.1、GPT-5.4和Claude之后。

但这个成绩单有两面性。

好的一面：在医学推理和图表理解上，Muse Spark确实展现出了竞争力。尤其是医学领域，Meta与超过1000名医生合作构建训练数据，投入力度可见一斑。

不太乐观的一面：据《纽约时报》报道，Muse Spark在编程能力上明显落后于竞争对手。知名开发者Simon Willison也直言"notably behind on coding"。

在Artificial Analysis的总排行榜上，Muse Spark排名第28——这个位置说不上亮眼。

此外，社区早期测试反馈也参差不齐。Reddit上有人报告了语言混合问题和性能不稳定的情况。

客观地说：Muse Spark是一份"及格偏上"的答卷。对于9个月从零起步的团队来说，这已经很不容易。但它还没有达到"碾压"或者"重新定义格局"的水平。

真正的亮点：训练效率10倍提升如果说Muse Spark的绝对性能只能算"有竞争力"，那么它在训练效率上的突破，才是真正让业界关注的。

Meta团队通过一系列小模型拟合了扩展定律（scaling law），然后对比了达到同等性能所需的训练算力。

结果：与Llama 4 Maverick相比，Muse Spark只需要不到1/10的算力，就能达到相同的能力水平。

这意味着什么？

算力成本直接降低了一个数量级。

在AI训练动辄花费数千万甚至数亿美元的今天，10倍的效率提升，意味着同样的预算可以训练出更强的模型，或者用更少的钱达到同样的效果。

这个突破来自三个维度的系统性优化。

第一，预训练重构。

团队全面重写了模型架构、优化方法和数据管线。不再沿用Llama的MoE（混合专家）架构，而是设计了一套全新的方案。具体架构细节Meta没有公开——毕竟这是闭源模型。

第二，强化学习（RL）稳定化。

大规模强化学习一直是业界难题，容易出现训练不稳定的问题。但Muse Spark的RL训练表现出平稳且可预测的提升——随着计算量增加，模型能力持续增强，在训练集和独立测试集上都是如此。

pass@1（一次就答对）和pass@16（16次尝试中至少对一次）的指标呈现对数线性增长，说明RL在提升准确率的同时，没有牺牲推理多样性。

第三，测试时推理优化。

这是Muse Spark最具技术含量的部分。

传统的测试时扩展方式是让单个模型"想更久"——更多token，更深推理。但这样做会显著增加延迟，用户体验变差。

Muse Spark走了另一条路：多智能体协同。

不是一个模型想更久，而是同时启动多个Agent并行推理，然后汇总结果。

效果：在保持相近响应速度的同时，实现了更优的性能。这类似于让一个团队同时独立解题，然后取最优解，而不是让一个人反复思考。

更有意思的是"思考时间惩罚"机制。Meta在RL训练中引入了长度惩罚，逼迫模型学会用更少的token完成同样的推理任务。

在某些评测（如AIME数学竞赛）中，出现了一种"相变"现象：模型先是通过延长思考时间提升表现，然后在长度惩罚下压缩推理过程，用更少的token达到同样效果，最后再适度延展推理以进一步提升。

压缩→延展→再平衡。这种动态调节能力，在业界是首次被系统性地展示出来。

闭源背后：Meta的战略赌注Muse Spark最引发争议的，不是性能，不是效率，而是闭源。

从Llama 1到Llama 4，Meta一直是开源AI运动最大的推动者之一。Llama模型的开源，催生了无数衍生项目，构建了庞大的开发者生态。

但Llama 4的失败，改变了一切。

2025年初发布的Llama 4评价褒贬不一，最终甚至被曝出存在操纵基准测试的情况。这严重损害了Meta在AI领域的声誉。

扎克伯格的反应是果断的：重组。

成立MSL，请来Wang，高薪挖人，从零开始。同时，放弃开源路线。

这个逻辑很清晰：

开源意味着竞争对手也能免费使用你的技术。在与OpenAI、Google的竞争中，Meta不想再"为他人做嫁衣"。

CNBC的评价一针见血：这是扎克伯格的"十亿美元豪赌"，目的是帮助Meta追上Google和OpenAI。

但风险同样巨大。

开源社区是Meta AI生态的根基。一旦开发者觉得被背叛，转向其他开源方案（比如Mistral、Qwen），Meta可能同时失去技术影响力和人才吸引力。

而且，闭源模型的竞争逻辑和开源完全不同。在开源时代，Meta不需要在每一项指标上领先——只要模型免费好用，社区自然会帮你优化。但在闭源赛道上，你必须在每一项指标上都足够强，用户才会为你的API买单。

应用场景：扎克伯格的"个人超级智能"愿景

Muse Spark的定位不是通用聊天机器人，而是构建"个人超级智能"的基础设施。

按照Wang的描述，这类AI不只是处理文本，而是能够看见并理解你周围的世界，成为个体能力的数字延伸。

这个愿景体现在几个具体方向上：多模态感知。

Muse Spark原生支持视觉、音频和文本输入。在视觉类STEM问题、实体识别和空间定位上表现较强。Meta展示的demo包括：识别食物并给出个性化健康建议（标注绿点/红点）、分析瑜伽动作并纠正姿势、生成可交互的网页小游戏。

健康领域。

Meta与1000多名医生合作构建训练数据，Muse Spark可以生成交互式健康内容，比如分析食物营养结构、标注运动涉及的肌肉群。

Agent能力。

原生支持工具调用和多智能体协同，可以自动拆解复杂任务并分配给多个Agent并行处理。

从demo来看，这些能力确实让人眼前一亮。但问题是：demo和产品之间，往往隔着一条鸿沟。

更值得关注的是：后续路线图Muse Spark只是Muse模型家族的起点。

Wang明确表示，这只是"第一个模型"。这意味着后续会有更强的Muse模型持续推出。

结合Meta在算力基础设施上的巨大投入（据估计Meta 2025年AI资本支出超过400亿美元），以及MSL团队持续吸纳顶级人才的趋势，Muse系列的迭代速度很可能非常快。

关键变量在于：训练效率的10倍提升是否可持续。

如果这个效率优势能够延续到下一代模型，那么Meta用更少算力追赶甚至超越竞争对手的故事，就真的成立了。

但如果这只是第一代的"红利"，后续模型的效率提升趋于平缓，那么闭源策略下的Meta，将不得不面对一个残酷的现实——

在没有开源社区助力的情况下，和OpenAI、Google在算力军备竞赛中正面硬刚。扎克伯格有这个耐心吗？华尔街有这个耐心吗？

143亿美元买来的团队，9个月交出的第一份答卷。分数不低，但离满分还远。

真正的考试，现在才刚开始。