这批年轻人,在“后台”改写未来

作者 | 季新

1月18日,雪落了一夜的北京尤其寒冷,北京科技大学学术报告厅里却尤其火热:来自北京邮电大学、华东师范大学、北京交通大学、东北大学等10所高校“战队”激情宣讲,角逐大赛奖项。

这场有答辩、有点评、有分享的别开生面的“比赛”,是2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛。本届赛事吸引了全国高校的1223支队伍、2620名学生参赛,最终,北京邮电大学三位学生组成的“编程高手”队夺得冠军。

华东师范大学数据学院教授、CCF数据库专委会主任周傲英为这场数据库大赛作出了“画龙点睛”的评论:数据是催生新质生产力的新动力。

在AI技术飞速发展的当下,人们热衷于讨论大模型的惊艳表现,却常常忽视一个残酷现实:AI越强,对数据系统的要求越苛刻,数据调用面临速度慢、成本高、答案不可信等“基建瓶颈”难题。

而这恰恰预示着一个关键转折:决定AI智能上限与落地成败的战场,正在从模型层悄然下移至数据基础设施层。 曾经的后台“老基建”数据库,其优化与重构不再是修补补的改良,而是智能时代最核心的战略底座,是AI产业走向规模化、可信赖发展的关键一跃,也蕴含着中国基础软件从并跑到领跑的历史性机遇。

数据库,正迎来其划时代的爆发窗口。

冠军团队“编程高手”赛后表示,通过大赛,他们更深刻地体会到数据底座对AI应用的决定性作用。“我们不只是写代码,更在用系统思维验证AI应用的根基。如果数据库拖后腿,再强的模型也会卡壳。”

AI 三大瓶颈

随着AI大模型的性价比越来越高,炫酷的AI应用也层出不穷。而AI应用好不好用、是否智能,往往取决于数据库的质量和响应能力。

慢,是一个最常见的AI应用场景。比如你在一个大型电商平台上询问AI客服:“我前天买了一件蓝色羊绒衫,尺码大了,想换一件小一点的,但同款式没货了,你有什么类似款式推荐吗?”

理想情况下,AI客服瞬间理解了你的订单历史、商品属性、库存状态,然后给出几个精准推荐链接。

现实的问题是,你提出的问题需要AI进行多轮检索,先“全文检索”,再“结构化过滤”,接着进行关联查询、商品匹配——要进行这么多步骤,AI客服的反应普遍是很慢的,一般都需要几十秒乃至更长的时间。

而这时你已经失去耐心,狂敲“人工客服”,这样一来,电商企业的成本倒增加了。

就好比,虽然大模型是个顶级厨师,但要面对一个食材和调味料乱堆乱放的后厨(数据库),就算让他做一道最简单的西红柿炒鸡蛋,他也会浪费不少时间。

贵,更是当下AI应用的痛点。比如大家都爱刷短视频APP,好像自己爱看的内容一直源源不断涌出来。实际情况是,为了实现“实时推荐”,系统不仅需要持续地把你的新行为(点击、点赞、收藏、留言)转化为向量、存入数据库,还需要每时每刻对上亿名用户进行“邻近搜索”,找到相似的人群和内容。

这种高并发、高计算的向量检索,如果依赖没经过优化的通用数据库或者纯外购AI服务,其计算成本和延迟很快就会呈指数级增长。结果,AI推荐带来的广告收入增长,远远赶不上付给云厂商的数据库和算力账单。

放在“餐厅场景”下,就好像为了满足每个顾客的独特口味,餐厅必须给每一桌配一个厨师,又要下单、又要做菜,人力成本高到离谱。

另外,“不可信”是AI服务的致命缺陷。大模型“幻觉”问题很难一劳永逸地解决,而幻觉带来的问题很可能演变成一场商业灾难。

比如银行客户经理咨询AI助手,“请总结一下A客户(某制造业公司)过去一年的跨境交易情况,并评估其潜在的风险。”按理想状态,AI将调取该公司所有的跨境支付记录,关联交易对象的信息,逐条进行风险解读。

但现实的考验是,客户数据散落在多个系统里,如果AI调取的数据库不能高效关联多源异构数据,不能精准追溯信息,就会产生幻觉并作出不可信的推测。

这一结果很可能导致银行错误地拒绝合法企业的正常业务,或相反,遗漏了真正的风险。这就像很多调料没有标签,厨师用了过期调料也不知道。

因此,没有高效、经济、可靠的数据库“后厨”,“明星主厨”大模型再厉害,也办不了一场人人满意的丰盛宴会。这些瓶颈共同指向一个结论:AI的竞争,下半场必在数据根基。优化乃至重构数据库,就是为智能时代锻造最关键的“智能基座”。

而磨练“后厨”技能,用高质量、高效率、可治理的数据库支撑AI发展,正是OceanBase大赛的初衷。

在这里,一众青年学子正各显所长。

踏入真实“战地”

OceanBase数据库大赛自2021年发起,2023年纳入全国大学生计算机系统能力大赛体系,是教育部认定的A类学科竞赛。特等奖、一等奖、二等奖及三等奖获得者可获蚂蚁集团OceanBase的招聘“绿色通道”,免线上笔试和初面,直通终面,吸引力很强。

今年的比赛,考题依然很难。初赛考核的是从零实现数据库核心模块、集成向量检索功能的能力。决赛则引入了去年11月刚刚发布的AI原生数据库OceanBase seekdb,直指“Data×AI”融合的工程难点。

用OceanBase CTO杨传辉的话说,OceanBase数据库大赛具有“理论联系实际”的重大意义,比赛的题目紧紧围绕工业应用设计,考验年轻学子的钻研精神、抗压能力。他向南风窗表示,前10强的水平都很高,评出前三名更是艰难的“决断”。

作为夺取“特等奖”的冠军队,北京邮电大学“编程高手”队的口号是“代码没有崩,排名就上来了”。队长王若凝告诉南风窗,排名上升是一个“自然过程”,他分析本队的优势,一是非常刻苦,有时连续钻研15、16个小时,二是大家思路很活跃,甚至想出不少“邪修”点子——虽然被评委叫停了。

接受南风窗采访时,王若凝引用浙江大学“C语言名师”翁恺的话“所有代码都是人写的”,他说,(代码)既然是人写的,别人也能研究明白,因此他主张“胆子要大一点”。果然,决赛答辩时,“编程高手”队三人均展现出令人印象深刻的自信(胆大)风采。

获得一等奖的队伍,是华东师范大学“抽空就干”队。队长杨丁力介绍,他与两位队友都是“网友”,在开源社区中结识。“网友”在工程量异常之大、入手难度极高的情况下,依然取得第二名佳绩,可见其“抽空就干”的含金量之高。

北京交通大学“Database战地风云”队和东北大学“我被困在了DB乡”队,并列获得二等奖。

“Database战地风云”队长田京雷向南风窗介绍,他们不仅找到了最新的相关论文指导操作,也与时俱进地利用AI工具修改代码,并指出火遍硅谷的“氛围编程”(Vibe Coding)实属时代发展方向。

东北大学“我被困在了DB乡”队是好几位选手口中“别人家的同学”,原因是三位选手来自一个课题组,已经具有“一个眼神自己体会”的默契。队长蔡钦成告诉南风窗,三人分工明确,有不懂的问题还可以请教学长。他说,数据库优化有时是个很玄学的东西,很多时候也具有不确定性。

西安电子科技大学“不想有小情绪”队获得优胜奖。队长邹细清由于队友未能抽出太多时间,几乎“孤军奋战”,初赛时保持前三位,复赛获第9名。他向南风窗表示,初赛时要处理4万行代码,用10天拿到满分。而复赛的代码上千万行,互相调用像迷宫一样,几乎被吓退,然而通过细心研究,一个多星期就掌握了seekdb的基本框架。他特别强调“还是团队合作力量大”。

综合而言,参赛选手普遍反映,OceanBase大赛令他们真正触摸到了“现实”。

“Database战地风云”特别在大屏幕打出了“参赛收获”。他们写道:“作为学生,我们熟悉教科书里的理论和模型,但当面对工业级的代码时,我们才真正体会到理论与实践之间的巨大鸿沟。这不仅是一场比赛,更是我们踏入真实‘战地’的一步。”

真实的“战地”要求,新时代的顶尖人才,必然是横跨系统底层与AI应用的“两栖”开发者。

寻找“确定性”

数据库仿佛可以给人一种“确定性”。比起AI大模型“黑箱”操作、频繁出现幻觉从而带来的“不确定性”,数据库总是可以查询,可以追溯,可以修改,自带一种“古典”的可验证气质。

数据库技术在计算机技术领域也确实很“古典”,据周傲英教授分享,数据库已经有60年发展历史,该领域研究多次获得图灵奖,比如Charles Bachmen的DBTG报告,E.F.Codd的关系模型研究,Jim Gray的事务处理研究等等。

不过,数据库也未必都是“确定性”的。

北京科技大学计算机与通信工程学院院长殷绪成用一种科学、理性的思维分析该问题,他告诉南风窗,在广义的角度,如今包含了互联网内容的AI数据库也是具有“不确定性”的,而人们可以用优化模型框架和融合知识库、常识库的办法,最大程度地减少“幻觉”。

也就是说,今天的数据库从业者、研究者,都要面临数据量庞大、类型更复杂、需求更实时的AI数据库所带来的“不确定性”挑战,以前的结构化数据库、非结构化数据库才能算得上“确定”,但那已是“过去式”了。

这是AI爆发时代的新问题,OceanBase大赛用贴在赛场墙上那句“时代有你”口号做出了一个沉默而振聋发聩的回答。

大赛本身,就是要面对新问题,解决新问题,因此,更需要创新人才的培养、筛选、考核。

在颁奖典礼现场,学界与产业界专家共识鲜明:AI正推动数据基础设施重构。数据库已从后台支撑走向前台核心,迎来前所未有的战略爆发期。相关人才缺口也将进一步扩大。

殷绪成表示,大赛“以赛促学”,AI时代数据库人才培养要推动 “AI与数据库深度融合”,既用AI提升数据库性能,也建设面向AI训练与应用的高效数据基础设施。大赛通过真实工程约束,推动学生从“会用工具”迈向“能做系统、能做优化”,培养兼具系统底层与AI工程化能力的复合型人才。

他告诉南风窗,中国在互联网与AI数据库领域已与国际“并跑”,部分开源生态甚至领先,基础软件发展迎来关键机遇。

系统能力培养研究专家组成员、北京师范大学教授计卫星指出,大赛以真实产业问题为牵引,弥补实践教学案例“理想化”不足,强化学生工程实践、综合素养与系统能力,是高校本研培养的重要补充。

赛事竞争的激烈,也充分证明中国数据库人才百花齐放,未来将推动国产数据库技术再上新台阶。

按杨传辉的说法,当智能应用从“能不能用”迈向“规模化、实时化、可信赖”阶段,底层数据系统决定了AI大模型的上限。数据库正迎来爆发式增长窗口——AI不仅重塑其价值,更为中国数据库实现技术引领和全球“弯道超车”带来关键机遇。他呼吁更多年轻人投身这条“难而正确”的道路,底层技术虽门槛难,但天花板极高,“一旦突破,将在AI时代拥有不可替代的核心竞争力”。

那么,我们可以推论,随着中国的数据库创新人才后浪奔涌,国产数据库与国外顶尖数据库“并跑”乃至“领先”,中国AI大模型的上限也将越来越高,中国的人工智能产业及其赋能的千行百业也将愈发繁荣。

再走进火热的OceanBase大赛颁奖现场,每一支队伍的选手的脸上都洋溢着青春的光彩,他们即将投身的领域未必百分之百“确定”,但他们有更“确定”的心态和能力,去面对AI时代更大的不确定。

当世界的目光追逐大模型的参数竞速时,这群年轻人选择沉入看似枯燥的底层,成为智能时代的“修路者”与“奠基人”。他们的选择意味着,真正的繁荣不仅需要闪耀在台前的应用创新,更离不开无数在后台夯实每一行代码、重构每一块基石的长期主义者。

也正因如此,我们比以往任何时候都更需要呼吁和吸引更多有志青年,投身数据库乃至更广阔的基础软件领域。这条路或许艰苦,远离聚光灯,但无疑是这个智能时代最“难而正确”、也最富战略价值的选择之一。

AI时代,真正的创新不仅发生在算法与模型舞台上,也诞生于后台庞大的数据库里。

- End -