现在的年轻人,已经在用AI原生数据库]竞赛了?

  更新时间:2026-01-23 02:41   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

撰文 | 李信马 题图 | AI生谈起AI时代在AI时代

<p style="text-align:center;"></p> <p>撰[文 | 李!信马</p> <p>题图 | AI生图</p> <p>在去年11月的一篇文章《三次浪潮:从OceanBase看国产数据库的崛起》中,我们曾提到一个“新物种”——seekdb,一款轻量级、嵌入式、面向AI应用的原生搜索数据库。</p> <p>这款产品是随着AI的快速发展应运而生的,当时OceanBase CEO杨冰表示:“这一次seekdb的发布,其实也是一个比较大的动作,它是完全独立于现在OceanBase的一个分支,这也是我们下的决心。”</p> <p>时隔不久后,seekdb的名字又出现在了一场高规格的竞赛之中。1月18日,2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛在北京科技大学落幕,OceanBase数据库大赛是教育部认定的A类学科竞赛,五年来赛事累计覆盖500余所高校、超1.1万名学生,本届赛事吸引了全国1223支队伍、2620名学生参赛,是我国数据库领域核心人才培养的重要平台。</p> <p>而且本届大赛全面升级,首次聚焦在了AI原生场景上,决赛基于seekdb设置两大前沿赛题,一是优化“全文检索+结构化过滤”的混合查询性能;二是基于同一数据库内核,构建可溯源的多模态RAG系统。选手要用自己优化的数据库内核,搭建一个既快又准、还能溯源答案来源的多模态RAG系统。</p> <p>这两道赛题,可以说都是针对AI产业中真实瓶颈的工程攻坚,而更有趣的是,赛事方对AI原生数据库这一新生事物的力推,和参赛团队的积极响应。</p> <p>谈起AI时代,我们一般讨论的是大模型、是芯片、是Agent,以至于经常会忽视基础软件的价值。但数据库,可能比我们想象的更重要。</p> <p><b>01、AI越热,数据库越关键?</b></p> <p>很多人觉得,数据库就是个存放数据的“仓库”,但现实是,再聪明的模型,如果缺乏高质量、高效率、可治理的数据支撑,实际表现也会一塌糊涂。大模型的计算能力强,但没有记忆,需要数据库产品来存储和管理上下文,可见AI带来的技术革命绝不是孤立的,而是一场系统性重构。</p> <p>在这场重构中,数据库依旧位于底座的重要位置,同时也被提出了新的需求。就像大数据时代Hadoop引发的技术革命一样,AI时代,数据库需要处理的数据量会进一步变大,数据类型也发生明显变化。</p> <p>随着大模型与RAG(检索增强生成)技术加速落地,数据系统既要支持语义检索与结构化过滤等混合查询,也要满足权限控制、可追溯与一致性等治理要求,传统的“搜索引擎+数据库”拼接架构逐渐过时。</p> <p>举个例子,“查找过去7天内,来自 VIP 用户、内容包含‘支付失败’的工单”,这一类同时处理语义关键词(全文)与结构化条件(标量过滤)的“带标量过滤的全文搜索”已经成为高频的AI应用需求,但传统架构,用 Elasticsearch 等外部搜索引擎再与数据库结果在应用层拼接,不但架构复杂,还可能导致数据不一致、端到端延迟高。</p> <p>还有在构建企业级智能问答、知识库助手和语义搜索系统时,传统方案将向量检索与全文检索割裂处理,可能会带来架构冗余与一致性风险,导致搜索的内容缺失或者不准确,运维也复杂。</p> <p>近几年,业界新的数据库产品,比如向量数据库、supabase,也包括seekdb在内,其实都是面向AI的。业界主流的数据库如Oracle和MongoDB,在引擎内部也逐步增加了搜索的能力,支持AI原生的场景。</p> <p>不过,目前行业还处于初级阶段。OceanBase的CTO杨传辉去年11月就提出:“只要谈到AI数据库,很多人的脑海里面想到的第一个词叫向量搜索,我认为向量搜索只是AI数据库的初级阶段,最终所有的向量搜索都会逐步演进为混合搜索,能不能支持混合搜索是AI数据库核心能力的分水岭。”</p> <p>实际的AI应用中,在金融、医疗等领域,数据的来源和处理过程必须清晰可查。这也倒逼了数据库的演进,混合检索成为高频负载,“可追溯”成为硬指标,推动数据库与搜索、向量、RAG链路重新组合。</p> <p>未来,原生支持混合查询与多模态检索的AI原生数据库,很可能将迎来新一轮爆发式需求。本届竞赛的全面升级,和对AI原生场景的聚焦,也是对这一趋势的顺应。</p> <p><b>02、AI时代中国数据库的机遇</b></p> <p>这个问题,其实在上一篇文章中也有提到。</p> <p>由于数据库技术正面临重构,为中国数据库实现技术引领和全球“弯道超车”提供了关键机遇。在AI原生数据库领域,中国与国际处于同一起跑线,甚至在部分开源生态方面已领先。</p> <p>引用一下杨冰的讲话:“AI的话,它对于数据库产生了新的需求,这些其实是让我们一下子跟世界级的数据库领域的玩家站在同一起跑线,因为这个场景全球都是新的,都是一样的。而且可能因为中国应用比较发达,数据基建发展得比较快,数据量比较大,反而我们在这个场景当中,中国数据库的玩家有更多的机会。”</p> <p>这个逻辑是可以跑通的,因为数据库是为应用服务的,在AI时代,中国有着海量的应用,自然有潜力诞生世界级的AI原生数据库。</p> <p>额外说一点,事情还是要人去做的,现在的“AI热”,让许多有志青年投身于人工智能领域,不过正如上文提到的,数据库领域也在高速发展中,同样将产生不小的人才缺口。曾经的“IOE”中现在最坚挺的,还是Oracle,依旧是世界级的数据库,足以证明数据库本身的价值。</p> <p>AI时代,“会用工具”很重要,“能做系统”也很重要,就像大赛的冠军团队「编程高手」赛后所说:“如果数据库拖后腿,再强的模型也会卡壳。”</p> <p>最后,引用一下华东师范大学数据学院教授,CCF会士、常务理事,数据库专委会主任周傲英教授的一段演讲内容作为对未来的预测(有部分微调):</p> <p>“去年的7月份,Satya Nadella说‘未来的软件就等于Agent+Database’,当然他讲的Database不是传统的Database。我们知道中国很多IT企业还在沿着这条路(传统的Database),还当作先进的路线。现在年轻孩子们有特别好的机会,因为我们到了一个转折点,我们找到了新的思路来做这个事。</p> <p>我们说说他的话,他说:‘AI Agent将重塑业务逻辑与数据库交互方式。随着AI技术的飞速发展,Agent已经具备了取代传统业务逻辑的雄厚实力。它们能够直接与数据库中的核心基础数据进行深度交互,从而完成各种复杂的任务。在这个过程当中,以往需要在数据库之上进行的硬编码业务逻辑会变得不再必要。”</p> <p>想一想,这是很可怕的一件事,让数字化转型变成可能,数据库的选择变得多元化,要特别讲究它的适应性。AI Agent时代,后端数据库的选择变得尤为重要,这种数据库并非传统意义上某一种特定的数据库,比如Oracle这样的数据库。Oracle为什么要发生根本的改变,其实我觉得它是看到了这种趋势,它必须具备广泛的兼容性,并且与AI Agent配合默契,成本低廉,这是Satya Nadella的原话。</p> <p>数据库现在处于一个‘因为相信,所以看见’的时代,我们要相信相信的力量,相信Data就是Power,我们要相信数据库将进化成一个数据赋能平台。”</p> <p></p>

编辑:迈尔斯·G·杰克森