Meta交出答卷:砸143亿请来的29岁华人CEO,9个月后发布了什么?

扎克伯格在AI上花了多少钱?

143亿美元,只为一个人。这个人叫Alexandr Wang,今年29岁。

他是Scale AI的联合创始人兼CEO,19岁从MIT辍学创业,把Scale做成了AI数据标注领域的绝对霸主。

2025年6月,Meta以143亿美元收购Scale AI 49%的非投票权股份。作为交易的一部分,Wang卸任Scale CEO,加入Meta出任首席AI官(Chief AI Officer),领导一个全新部门——Meta Superintelligence Labs(MSL)。

这不是一次普通的高管跳槽。这是Meta AI战略的一次彻底换血。

随后发生的事,才是真正值得关注的。

29岁CEO + 华人科学家天团Wang上任后的第一件事,不是发布模型,而是挖人。

而且挖的全是OpenAI的顶级研究员。

赵晟佳(Shengjia Zhao),宁夏人,清华毕业,斯坦福博士。2022年加入OpenAI,三年间参与了ChatGPT、GPT-4、GPT-4o、o1、o3、o4-mini、GPT-4.5以及Operator推理框架的核心研发。他曾与OpenAI联合创始人Ilya Sutskever紧密合作。

2025年7月,扎克伯格亲自宣布赵晟佳出任MSL首席科学家。据华尔街报道,其年薪超过1亿美元。

Jason Wei,"思维链提示"(Chain-of-Thought Prompting)论文的第一作者,先后在Google Brain和OpenAI工作,专注于推理模型(o1、o3)和深度研究(Deep Research)。同样在2025年7月加入MSL。

与此同时,一位图灵奖得主正在离开。

Yann LeCun,Meta首席AI科学家,深度学习三巨头之一,开源AI最坚定的拥护者。2025年11月,他正式宣布离开Meta,创办自己的AI创业公司Ami Labs,目标估值35亿美元。

一边是1亿美元年薪挖来OpenAI的核心力量,一边是图灵奖得主黯然离场。

Meta的AI路线,正在经历一场哲学层面的根本转向。

从零重建:9个月的技术豪赌

Wang加入MSL后做了一个大胆的决定:不基于Llama的任何代码。

从零开始,重建整套AI技术栈。

包括全新的基础设施、全新的模型架构、全新的数据管线。

这在整个AI行业里几乎是闻所未闻的。通常情况下,新模型都是在已有架构上迭代优化。但Wang选择了推倒重来。

他在X上写道:

"九个月前,我们从零开始重构了整套AI技术栈。Muse Spark正是这一系列工作的成果,如今它已成为Meta AI的核心驱动力。"

2026年4月8日,Muse Spark正式上线。

这是MSL成立以来的第一个模型,也是Meta历史上第一个闭源前沿模型。

闭源——这两个字,对Meta来说意义重大。

从Llama 1到Llama 4,Meta一直是开源AI的旗手。Llama系列的开源策略为Meta赢得了巨大的开发者生态和行业声望。而Muse Spark的闭源,意味着Meta正式放弃了这个立场。

Meta目前的说法是"双轨制":Llama继续服务开源社区,Muse负责前沿竞争。

但开源社区的信任一旦失去,还能回来吗?

Muse Spark到底强不强?

先看数据。

HealthBench Hard(医学推理基准测试):42.8%,排名第一,超过Gemini 3.1、GPT-5.4和Claude Opus 4.6。

CharXiv Reasoning(图表理解):Contemplating模式下得分86.4,超过Gemini和Claude。

Humanity's Last Exam(人类终极考试):Contemplating模式58%。

FrontierScience Research(前沿科学研究):Contemplating模式38%。

Artificial Analysis Intelligence Index v4.0:综合排名第4(得分52),排在Gemini 3.1、GPT-5.4和Claude之后。

但这个成绩单有两面性。

好的一面:在医学推理和图表理解上,Muse Spark确实展现出了竞争力。尤其是医学领域,Meta与超过1000名医生合作构建训练数据,投入力度可见一斑。

不太乐观的一面:据《纽约时报》报道,Muse Spark在编程能力上明显落后于竞争对手。知名开发者Simon Willison也直言"notably behind on coding"。

在Artificial Analysis的总排行榜上,Muse Spark排名第28——这个位置说不上亮眼。

此外,社区早期测试反馈也参差不齐。Reddit上有人报告了语言混合问题和性能不稳定的情况。

客观地说:Muse Spark是一份"及格偏上"的答卷。对于9个月从零起步的团队来说,这已经很不容易。但它还没有达到"碾压"或者"重新定义格局"的水平。

真正的亮点:训练效率10倍提升如果说Muse Spark的绝对性能只能算"有竞争力",那么它在训练效率上的突破,才是真正让业界关注的。

Meta团队通过一系列小模型拟合了扩展定律(scaling law),然后对比了达到同等性能所需的训练算力。

结果:与Llama 4 Maverick相比,Muse Spark只需要不到1/10的算力,就能达到相同的能力水平。

这意味着什么?

算力成本直接降低了一个数量级。

在AI训练动辄花费数千万甚至数亿美元的今天,10倍的效率提升,意味着同样的预算可以训练出更强的模型,或者用更少的钱达到同样的效果。

这个突破来自三个维度的系统性优化。

第一,预训练重构。

团队全面重写了模型架构、优化方法和数据管线。不再沿用Llama的MoE(混合专家)架构,而是设计了一套全新的方案。具体架构细节Meta没有公开——毕竟这是闭源模型。

第二,强化学习(RL)稳定化。

大规模强化学习一直是业界难题,容易出现训练不稳定的问题。但Muse Spark的RL训练表现出平稳且可预测的提升——随着计算量增加,模型能力持续增强,在训练集和独立测试集上都是如此。

pass@1(一次就答对)和pass@16(16次尝试中至少对一次)的指标呈现对数线性增长,说明RL在提升准确率的同时,没有牺牲推理多样性。

第三,测试时推理优化。

这是Muse Spark最具技术含量的部分。

传统的测试时扩展方式是让单个模型"想更久"——更多token,更深推理。但这样做会显著增加延迟,用户体验变差。

Muse Spark走了另一条路:多智能体协同。

不是一个模型想更久,而是同时启动多个Agent并行推理,然后汇总结果。

效果:在保持相近响应速度的同时,实现了更优的性能。这类似于让一个团队同时独立解题,然后取最优解,而不是让一个人反复思考。

更有意思的是"思考时间惩罚"机制。Meta在RL训练中引入了长度惩罚,逼迫模型学会用更少的token完成同样的推理任务。

在某些评测(如AIME数学竞赛)中,出现了一种"相变"现象:模型先是通过延长思考时间提升表现,然后在长度惩罚下压缩推理过程,用更少的token达到同样效果,最后再适度延展推理以进一步提升。

压缩→延展→再平衡。这种动态调节能力,在业界是首次被系统性地展示出来。

闭源背后:Meta的战略赌注Muse Spark最引发争议的,不是性能,不是效率,而是闭源。

从Llama 1到Llama 4,Meta一直是开源AI运动最大的推动者之一。Llama模型的开源,催生了无数衍生项目,构建了庞大的开发者生态。

但Llama 4的失败,改变了一切。

2025年初发布的Llama 4评价褒贬不一,最终甚至被曝出存在操纵基准测试的情况。这严重损害了Meta在AI领域的声誉。

扎克伯格的反应是果断的:重组。

成立MSL,请来Wang,高薪挖人,从零开始。同时,放弃开源路线。

这个逻辑很清晰:

开源意味着竞争对手也能免费使用你的技术。在与OpenAI、Google的竞争中,Meta不想再"为他人做嫁衣"。

CNBC的评价一针见血:这是扎克伯格的"十亿美元豪赌",目的是帮助Meta追上Google和OpenAI。

但风险同样巨大。

开源社区是Meta AI生态的根基。一旦开发者觉得被背叛,转向其他开源方案(比如Mistral、Qwen),Meta可能同时失去技术影响力和人才吸引力。

而且,闭源模型的竞争逻辑和开源完全不同。在开源时代,Meta不需要在每一项指标上领先——只要模型免费好用,社区自然会帮你优化。但在闭源赛道上,你必须在每一项指标上都足够强,用户才会为你的API买单。

应用场景:扎克伯格的"个人超级智能"愿景

Muse Spark的定位不是通用聊天机器人,而是构建"个人超级智能"的基础设施。

按照Wang的描述,这类AI不只是处理文本,而是能够看见并理解你周围的世界,成为个体能力的数字延伸。

这个愿景体现在几个具体方向上:多模态感知。

Muse Spark原生支持视觉、音频和文本输入。在视觉类STEM问题、实体识别和空间定位上表现较强。Meta展示的demo包括:识别食物并给出个性化健康建议(标注绿点/红点)、分析瑜伽动作并纠正姿势、生成可交互的网页小游戏。

健康领域。

Meta与1000多名医生合作构建训练数据,Muse Spark可以生成交互式健康内容,比如分析食物营养结构、标注运动涉及的肌肉群。

Agent能力。

原生支持工具调用和多智能体协同,可以自动拆解复杂任务并分配给多个Agent并行处理。

从demo来看,这些能力确实让人眼前一亮。但问题是:demo和产品之间,往往隔着一条鸿沟。

更值得关注的是:后续路线图Muse Spark只是Muse模型家族的起点。

Wang明确表示,这只是"第一个模型"。这意味着后续会有更强的Muse模型持续推出。

结合Meta在算力基础设施上的巨大投入(据估计Meta 2025年AI资本支出超过400亿美元),以及MSL团队持续吸纳顶级人才的趋势,Muse系列的迭代速度很可能非常快。

关键变量在于:训练效率的10倍提升是否可持续。

如果这个效率优势能够延续到下一代模型,那么Meta用更少算力追赶甚至超越竞争对手的故事,就真的成立了。

但如果这只是第一代的"红利",后续模型的效率提升趋于平缓,那么闭源策略下的Meta,将不得不面对一个残酷的现实——

在没有开源社区助力的情况下,和OpenAI、Google在算力军备竞赛中正面硬刚。扎克伯格有这个耐心吗?华尔街有这个耐心吗?

143亿美元买来的团队,9个月交出的第一份答卷。分数不低,但离满分还远。

真正的考试,现在才刚开始。