• 我的订阅
  • 科技

AI 时代,这家公司想做一个免费数据库

类别:科技 发布时间:2023-07-20 11:36:00 来源:极客公园

数据可能是大模型驱动下,最先走向商业落地的领域之一。过去一个月,不少行业人士认为,随着算力成本的降低、开源模型的进步、以及模型部署服务的渗透,数据可能是软件公司利用大模型做出差异化,最重要的因素。

数据库领域的领头羊 Snowflake 和 Databricks 均在各自的大会上,描绘了大模型+数据的理想前景——现在由数据工程师和数据科学家才能取数、用数的场景,未来人人可得。

尽管实现这一图景还需要很多技术、工程、场景上的探索,但数据是大模型时代绝对的主角。相应地,承载数据调度的数据库也会迎来新一轮变革。

日前,国内数据库厂商 PingCAP 在用户峰会上,分享了关于 AI 时代数据库的新思考。

「如果为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」

五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样的需求。」

现在,黄东旭表示,「这个经典架构搬到云上想要支撑这个需求,PingCAP 得赔死了。」当 AI 正在改写软件行业时,PingCAP 推出了新一代架构的数据库——TiDB Serverless。

刘奇认为,TiDB Serverless 从架构上更系统地做到 AI ready,当「算算分离、存存分离、存算分离,这个时候非常容易引入 AI」。

AI 时代的数据库架构

作为软件公司,刘奇对这波「AI 重塑软件」有两个直接体感——一个是代码,还有一个是数据。

峰会上,他用一个「惊人」的数字来阐述 AI 变革——过去七个月,GitHub 上新增的原代码已经有超过 46% 由 AI 生成。「也就是说,如果从软件开发效率的角度去看,AI 已经完成了差不多一半的人类的工作,这是短短过去七个月的时间发生的事情」。

在 AI 时代到来之前,要先编程把各种各样的辅助工具编出来,再运行。但在今天,没有写一行代码,只提了个要求,就有结果了。数据消费的门槛变得极低,可以预见,数据将呈十倍、百倍规模的增长,这会对数据库带来巨大的挑战。

AI 时代,这家公司想做一个免费数据库

刘奇在峰会上分享数据库领域的变化 | 图片来源:PingCAP

对此,PingCAP 创始人兼 CEO 刘奇认为,团队于四年前开始预研、到现在正式商用的 TiDB Serverless 数据库,可以从架构上满足 AI 带来的新需求。

TiDB Serverless 数据库架构简化了应用的开发,让客户不必再花时间在数据库上,把复杂的事情交给 PingCAP 的系统自动化处理,而把自己的时间精力投资在业务创新上。过去,PingCAP 从解决 MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是这一理念的延伸。

PingCAP 联合创始人兼 CTO 黄东旭,在峰会的「年度保留节目」——「下一代数据库」主题演讲上进一步拆解了 TiDB Serverless 数据库的由来。

他认为,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。并且,下一代数据库还面临着新的要求和挑战:

除了极致的性能支持海量数据外,性能的可预测性成为关注焦点;

线性开发体验,数据库扩缩容对应用透明;

高效的成本控制,可以零成本起步(Scale-to-Zero);

多租户支持成为新常态,不仅要实现隔离,还要实现数据的共享。

为此,在重新设计 TiDB Serverless 的时候,PingCAP 定下了一个规范:「我们应该做的是数据库的服务化,而不是服务化的数据库。」

黄东旭介绍,8 年前一开始设计 TiDB 数据库时,他看到的东西就是一台台具体的服务器、CPU、内存、磁盘,基于这些东西来构造 TiDB,但是现在到 Serverless 版本的数据库,重新再去设计系统时,他看到的已经不是这些 CPU、磁盘、服务器,而是云上的服务,EC2 虚拟机、对象存储、甚至是云厂商的 RDS(关系型数据库)——他想在新的云原生的工程哲学里充分利用云的基础设施,这也是 TiDB Serverless 能把成本推到当前的极限水平的核心原因。

掀开最新一代数据库 TiDB Serverless 的引擎盖,里面大概有三个新的东西:

换了新的云原生的引擎 CSE(Cloud-native Storage Engine)架构;

在 TiDB 引入了逻辑上的 Key Space;

Resource Control 以及 RU 的概念,从上到下做全局流控。从而实现了无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务。

过去几个月的时间里,TiDB Serverless beta 版已经拥有超过 1 万个活跃的集群。

小模型服务企业场景

PingCAP 副总裁刘松认为,数据库正经历着从云原生数据库到 Serverless 数据库,再到拥抱 AI,将 AI 与数据库进行融合的大方向。TiDB Serverless 数据库作为 PingCAP 全新一代的架构,可以和 HTAP、AI 融合,成为三位一体的创新。

这些技术融合之后,下一步要看 AI 和数据库融合怎么才能提升数据库的处理能力、分析能力。

对于 AI 对数据库带来的变革,刘奇认为,AI 跟数据库应用的结合有更多的层面。最广为熟知的场景是用自然语言与数据库交互,就自动完成了数据分析的工作。

但是,还有其他中间和底层的环节,并且这些环节很多时候跟大模型无关。比如,可以用数据训练一个小 AI 模型,来预测用户 workload(工作负载)的变化,用户会感觉:数据好像本来就在这,分析速度非常快。他说:「之前跑的一个 workload,我们现在快了几十倍,结果看起来也是对的,突然有这么大的改变,会让人觉得难以置信」。

小模型正在发挥着超出预期的价值,这似乎有点反常。事实上,自 ChatGPT 以来,让 B 端企业用户再次为AI惊喜的是大模型的通用能力,可以解决根据小模型一个场景一个场景训练的「项目制」工程。

对于小模型的通用性,刘奇认为,当训练参数达到 120 亿、160 亿的时候,模型的知识丰富度已经很高了。而且,过去一段时间,小模型训练也很充分,起步的训练量在 1TB 的 Token,这样训练出来的结果至少是高中大学生的水平,再进到不同的行业做一些专有训练,其实也具备比较强的通用性。但调用 OpenAI 的 API,特别是 GPT-4 非常贵,以现在的成本没有办法做到人人可用。

另外,模型怎么跟互联网结合,让它能变得更加通用,现在这一技术也相对比较成熟。

比如要完成一个任务,允许模型使用工具(包括上网搜索关键词),经过几次的反复也能完成工作。「大模型也许不必装那么多知识,关键是推理能力到什么程度,剩下的可以依据推理能力把任务完成。」小模型推理能力的进步,是衡量可用性的重要因素。

他认为,有一些目前还没有开源、训练量没那么大,已经证明了推理能力可以显著改变,甚至可以超过 GPT-3.5。尽管不是全领域,是在某一方面,或者某几方面已经做到了。

更重要的是,用企业安全合规的标准来运维,小模型往往是更好的选择,它会更加专用。「如果把 AI 植入到各个环节,很多地方的应用都是专用的小的模型,它的速度需要很快做出预测;同时需要考虑到用户本身数据的安全合规,用户也不允许你把数据发出去给一个大模型,我的数据必须在我自己的地方」。

对于外界关心的 PingCAP 会接入哪家大模型,刘奇再次强调了小模型,尤其是开源小模型的价值。他说,如果超过千亿的参数是大模型,那么现在有大量数百亿参数的小模型进步速度非常快,超出了所有人的预期。

「当初谁也没有想到能够在短短的半年时间就有模型敢出来和 OpenAI 叫板,小模型想达到相对接近的能力需要多少年,现在我们发现至少有非常强的信心,一年之内就可以看到开源的小模型能够做到这一点,同时能更好的满足用户对于数据的要求,因为你数据不用出我们的服务,就能做到端到端的合规。」

从「算算分离、存存分离、存算分离」的 TiDB Serverless 架构,再到小模型的选择,PingCap 做出了实践其 AI 时代数据库服务商转型的重要一步。当数据量成倍增长时,「服务化+数据库」的逻辑,显然已经成为数据平台们的共识。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-20 16:45:44

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

整个足球世界,都在学习接受大数据时代的到来
...练们服务。球员可以从BreakAway Data等应用程序建立自己的数据库,该应用程序旨在帮助球员展示更全面更真实的能力,而不是靠个人表现集锦去吸引教练们的注意。放眼望去,整
2024-01-09 17:20:00
崔永庆:跑出数据运营平台型公司
...包括我们在数字消费领域的领先优势。全拓科技已触达大数据库活跃人群行为数据超过9.5亿,年覆盖人群超过600亿次。举个例子,比如数据画像这项技术,我们有一套标签数据分析系统,包
2024-05-16 06:29:00
数据觉醒时代,华为重新定义数据存储
...裁 周跃峰从上世纪90年代至今,随着企业的应用由单机、数据库/虚拟化、文件共享、大数据、高性能数据分析等应用的变迁,数据存储经历了从DAS到SAN/NAS,再到非结构化存储的
2024-05-07 20:01:00
36氪独家 | 「Fabarta」 获过亿元人民币 pre A 轮融资,大图和大模型在AGI时代缺一不可
...达1200亿美元,不少人开始关注新数仓,也在国内引发了数据库创业热潮。相比传统的关系型数据库,图数据库能够更好地处理复杂的数据结构,并能够实现更高效的查询和分析,在可解释智能
2023-04-18 08:07:00
OceanBase杨冰:技术产品领导者,如何“进化”为全球经营者?
...是下单付款,依然如常丝滑——这背后离不开性能可靠的数据库的支撑。而国产分布式数据库厂商OceanBase已是连续十多年不可或缺的关键“守门人”
2025-12-30 10:20:00
OceanBase客户数破2000家,首批分布式数据库通过安全测试,撑起蚂蚁集团AI Agent
...报道,在10月23日举行的OceanBase 2024年度发布会上,OceanBase数据库OceanBase 4
2024-10-26 09:54:00
「数据中台」降温后,企业数智化下一局何解?
...更高,AI在实际业务中应用落地的数据反哺又至关重要。数据库巨头Databricks就在2023的年末总结里提出:“未来的大数据架构将是一个高度集成、智能化和自动化的系统,它能
2024-03-04 18:56:00
关于华为,一件隐秘而伟大的事
...一些常驻在华为办公的海外厂商人员当即撤离,包括Oracle数据库和ERP软件、各种生产工具等软件的顾问,华为过去几十年建立在商业软件之上的业务系统,危如累卵。以国家力量,旷日
2023-06-08 18:00:00
上海爱可生发布基于OceanBase开源内核的商业发行版ActionDB
...海爱可生信息技术有限公司(以下简称“爱可生”)召开数据库新品发布会,正式发布面向国产化时代的企业级数据库ActionDB
2023-05-21 06:00:00
更多关于科技的资讯:
科技赋能经络养护,中昕给出的答案远不止一台设备
经络养生赛道正在经历一场静默的变革当一些消费者还停留在“经络养生就是推拿按摩”的认知时,行业的前端已经在用智能设备、数字化管理和标准化流程重新定义服务交付
2026-03-18 21:22:00
AI时代的革新者:橙啦聚焦年轻人升学就业场景
当人工智能浪潮席卷各行各业,教育领域的变革早已暗流涌动。从“千人一面”的标准化教学,到“千人千面”的个性化赋能,AI正在重新定义学习的路径
2026-03-18 21:25:00
华帝潘叶钊:品牌定力,是穿越周期的第一课
风云激荡的全球产业链大变局下,厨电行业深陷存量竞争、参数内卷的发展困局,家电企业如何破局高端化、穿越行业周期?华帝股份有限公司CMO潘叶钊的这番主题演讲和会后专访
2026-03-18 21:26:00
3月16日,在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,联城科技(河北)股份有限公司副总经理吕晓栓分享了医疗大模型赋能智能编码与医保控费解决方案
2026-03-18 18:05:00
京东集团旗下的全新欧洲线上零售品牌Joybuy自3月16日正式上线以来,迅速引爆欧洲市场。上线仅两天时间,Joybuy APP就登顶英国
2026-03-18 19:29:00
【荐书】技术之眼与伦理之困:评《技术的困境:人脸识别的应用与规制》
《技术的困境:人脸识别的应用与规制》以人脸识别这一高度现实化的技术议题为切入点,深入探讨数字社会中技术发展所引发的伦理
2026-03-18 14:14:00
定义手柄29年后,北通选择“亲手打破规则”
2024年,《黑神话:悟空》的横空出世,这款现象级作品不仅点燃了国产3A的希望,紧随其后的是市场的热烈回应,2025年
2026-03-18 14:29:00
让“中国芯”读懂“世界证”国产护照阅读器让出入境“秒通关”
随着中国免签“朋友圈”持续扩大,越来越多外国游客来华“打卡”,国人也热衷于踏出国门看世界。在机场、高铁站、酒店前台,如何让一本本不同语言的护照实现“秒速识别”
2026-03-18 14:45:00
小牛电动开启“造AI好车”新十年
海外网3月17日电(记者 刘少华)以“真科技,就要小牛”为主题的2026小牛电动科技新品发布会在北京举办。小牛电动于会上正式发布全球首款AI智能两轮电动车车机系统——小牛灵犀AIOS(NIU AIOS)
2026-03-18 14:53:00
倒计时1天|农业实战大咖压轴!教你打造高效产业闭环!
鲁网3月18日讯执笔沃土 擘画新仓。由中国农垦集团主办,临沂科技职业学院承办的现代农业核心运营与系统建设高阶研修班,启幕倒计时1天
2026-03-18 15:21:00
AI时代,“她力量”绽放
AI重塑世界,“她力量”重塑连接。3月17日,由中国美国商会主办的2026女性峰会在北京举办。中国美国商会主席James Zimmerman
2026-03-18 16:01:00
滴滴AI打车升级:一句话,叫到你想要的车
只需要一句话,无论是对车辆有个性化要求,还是对自身状态的模糊表述,AI小滴都能把它拆成可执行的服务标签,从茫茫车海里帮用户捞出那辆“对的车”
2026-03-18 16:25:00
“AI伙伴”陪伴孤独症孩子开口说话:聊城市东昌府区特殊教育中心学校探索智能助学新路径
鲁网3月18日讯在聊城市东昌府区特殊教育中心学校的教室里,以往需要特教老师反复引导、无数次重复教导的语言训练课,如今迎来了一位极富耐心的“新伙伴”
2026-03-18 16:32:00
【宅男财经|专家面对面】3月17日,宇树科技创始人王兴兴在2026亚布力论坛年会演讲时提到,虽然现在百米比赛中机器人还跑不过人类
2026-03-18 15:40:00
从“资源”到“资本”:罗庄区大数据局以数智实践解锁高质量发展新密码
鲁网3月18日讯在数字经济浪潮下,如何将海量数据转化为现实生产力?2025年,山东省临沂市罗庄区大数据局给出了有力回答
2026-03-18 11:13:00