• 我的订阅
  • 科技

AI 时代,这家公司想做一个免费数据库

类别:科技 发布时间:2023-07-20 11:36:00 来源:极客公园

数据可能是大模型驱动下,最先走向商业落地的领域之一。过去一个月,不少行业人士认为,随着算力成本的降低、开源模型的进步、以及模型部署服务的渗透,数据可能是软件公司利用大模型做出差异化,最重要的因素。

数据库领域的领头羊 Snowflake 和 Databricks 均在各自的大会上,描绘了大模型+数据的理想前景——现在由数据工程师和数据科学家才能取数、用数的场景,未来人人可得。

尽管实现这一图景还需要很多技术、工程、场景上的探索,但数据是大模型时代绝对的主角。相应地,承载数据调度的数据库也会迎来新一轮变革。

日前,国内数据库厂商 PingCAP 在用户峰会上,分享了关于 AI 时代数据库的新思考。

「如果为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」

五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样的需求。」

现在,黄东旭表示,「这个经典架构搬到云上想要支撑这个需求,PingCAP 得赔死了。」当 AI 正在改写软件行业时,PingCAP 推出了新一代架构的数据库——TiDB Serverless。

刘奇认为,TiDB Serverless 从架构上更系统地做到 AI ready,当「算算分离、存存分离、存算分离,这个时候非常容易引入 AI」。

AI 时代的数据库架构

作为软件公司,刘奇对这波「AI 重塑软件」有两个直接体感——一个是代码,还有一个是数据。

峰会上,他用一个「惊人」的数字来阐述 AI 变革——过去七个月,GitHub 上新增的原代码已经有超过 46% 由 AI 生成。「也就是说,如果从软件开发效率的角度去看,AI 已经完成了差不多一半的人类的工作,这是短短过去七个月的时间发生的事情」。

在 AI 时代到来之前,要先编程把各种各样的辅助工具编出来,再运行。但在今天,没有写一行代码,只提了个要求,就有结果了。数据消费的门槛变得极低,可以预见,数据将呈十倍、百倍规模的增长,这会对数据库带来巨大的挑战。

AI 时代,这家公司想做一个免费数据库

刘奇在峰会上分享数据库领域的变化 | 图片来源:PingCAP

对此,PingCAP 创始人兼 CEO 刘奇认为,团队于四年前开始预研、到现在正式商用的 TiDB Serverless 数据库,可以从架构上满足 AI 带来的新需求。

TiDB Serverless 数据库架构简化了应用的开发,让客户不必再花时间在数据库上,把复杂的事情交给 PingCAP 的系统自动化处理,而把自己的时间精力投资在业务创新上。过去,PingCAP 从解决 MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是这一理念的延伸。

PingCAP 联合创始人兼 CTO 黄东旭,在峰会的「年度保留节目」——「下一代数据库」主题演讲上进一步拆解了 TiDB Serverless 数据库的由来。

他认为,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。并且,下一代数据库还面临着新的要求和挑战:

除了极致的性能支持海量数据外,性能的可预测性成为关注焦点;

线性开发体验,数据库扩缩容对应用透明;

高效的成本控制,可以零成本起步(Scale-to-Zero);

多租户支持成为新常态,不仅要实现隔离,还要实现数据的共享。

为此,在重新设计 TiDB Serverless 的时候,PingCAP 定下了一个规范:「我们应该做的是数据库的服务化,而不是服务化的数据库。」

黄东旭介绍,8 年前一开始设计 TiDB 数据库时,他看到的东西就是一台台具体的服务器、CPU、内存、磁盘,基于这些东西来构造 TiDB,但是现在到 Serverless 版本的数据库,重新再去设计系统时,他看到的已经不是这些 CPU、磁盘、服务器,而是云上的服务,EC2 虚拟机、对象存储、甚至是云厂商的 RDS(关系型数据库)——他想在新的云原生的工程哲学里充分利用云的基础设施,这也是 TiDB Serverless 能把成本推到当前的极限水平的核心原因。

掀开最新一代数据库 TiDB Serverless 的引擎盖,里面大概有三个新的东西:

换了新的云原生的引擎 CSE(Cloud-native Storage Engine)架构;

在 TiDB 引入了逻辑上的 Key Space;

Resource Control 以及 RU 的概念,从上到下做全局流控。从而实现了无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务。

过去几个月的时间里,TiDB Serverless beta 版已经拥有超过 1 万个活跃的集群。

小模型服务企业场景

PingCAP 副总裁刘松认为,数据库正经历着从云原生数据库到 Serverless 数据库,再到拥抱 AI,将 AI 与数据库进行融合的大方向。TiDB Serverless 数据库作为 PingCAP 全新一代的架构,可以和 HTAP、AI 融合,成为三位一体的创新。

这些技术融合之后,下一步要看 AI 和数据库融合怎么才能提升数据库的处理能力、分析能力。

对于 AI 对数据库带来的变革,刘奇认为,AI 跟数据库应用的结合有更多的层面。最广为熟知的场景是用自然语言与数据库交互,就自动完成了数据分析的工作。

但是,还有其他中间和底层的环节,并且这些环节很多时候跟大模型无关。比如,可以用数据训练一个小 AI 模型,来预测用户 workload(工作负载)的变化,用户会感觉:数据好像本来就在这,分析速度非常快。他说:「之前跑的一个 workload,我们现在快了几十倍,结果看起来也是对的,突然有这么大的改变,会让人觉得难以置信」。

小模型正在发挥着超出预期的价值,这似乎有点反常。事实上,自 ChatGPT 以来,让 B 端企业用户再次为AI惊喜的是大模型的通用能力,可以解决根据小模型一个场景一个场景训练的「项目制」工程。

对于小模型的通用性,刘奇认为,当训练参数达到 120 亿、160 亿的时候,模型的知识丰富度已经很高了。而且,过去一段时间,小模型训练也很充分,起步的训练量在 1TB 的 Token,这样训练出来的结果至少是高中大学生的水平,再进到不同的行业做一些专有训练,其实也具备比较强的通用性。但调用 OpenAI 的 API,特别是 GPT-4 非常贵,以现在的成本没有办法做到人人可用。

另外,模型怎么跟互联网结合,让它能变得更加通用,现在这一技术也相对比较成熟。

比如要完成一个任务,允许模型使用工具(包括上网搜索关键词),经过几次的反复也能完成工作。「大模型也许不必装那么多知识,关键是推理能力到什么程度,剩下的可以依据推理能力把任务完成。」小模型推理能力的进步,是衡量可用性的重要因素。

他认为,有一些目前还没有开源、训练量没那么大,已经证明了推理能力可以显著改变,甚至可以超过 GPT-3.5。尽管不是全领域,是在某一方面,或者某几方面已经做到了。

更重要的是,用企业安全合规的标准来运维,小模型往往是更好的选择,它会更加专用。「如果把 AI 植入到各个环节,很多地方的应用都是专用的小的模型,它的速度需要很快做出预测;同时需要考虑到用户本身数据的安全合规,用户也不允许你把数据发出去给一个大模型,我的数据必须在我自己的地方」。

对于外界关心的 PingCAP 会接入哪家大模型,刘奇再次强调了小模型,尤其是开源小模型的价值。他说,如果超过千亿的参数是大模型,那么现在有大量数百亿参数的小模型进步速度非常快,超出了所有人的预期。

「当初谁也没有想到能够在短短的半年时间就有模型敢出来和 OpenAI 叫板,小模型想达到相对接近的能力需要多少年,现在我们发现至少有非常强的信心,一年之内就可以看到开源的小模型能够做到这一点,同时能更好的满足用户对于数据的要求,因为你数据不用出我们的服务,就能做到端到端的合规。」

从「算算分离、存存分离、存算分离」的 TiDB Serverless 架构,再到小模型的选择,PingCap 做出了实践其 AI 时代数据库服务商转型的重要一步。当数据量成倍增长时,「服务化+数据库」的逻辑,显然已经成为数据平台们的共识。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-20 16:45:44

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

整个足球世界,都在学习接受大数据时代的到来
...练们服务。球员可以从BreakAway Data等应用程序建立自己的数据库,该应用程序旨在帮助球员展示更全面更真实的能力,而不是靠个人表现集锦去吸引教练们的注意。放眼望去,整
2024-01-09 17:20:00
崔永庆:跑出数据运营平台型公司
...包括我们在数字消费领域的领先优势。全拓科技已触达大数据库活跃人群行为数据超过9.5亿,年覆盖人群超过600亿次。举个例子,比如数据画像这项技术,我们有一套标签数据分析系统,包
2024-05-16 06:29:00
数据觉醒时代,华为重新定义数据存储
...裁 周跃峰从上世纪90年代至今,随着企业的应用由单机、数据库/虚拟化、文件共享、大数据、高性能数据分析等应用的变迁,数据存储经历了从DAS到SAN/NAS,再到非结构化存储的
2024-05-07 20:01:00
36氪独家 | 「Fabarta」 获过亿元人民币 pre A 轮融资,大图和大模型在AGI时代缺一不可
...达1200亿美元,不少人开始关注新数仓,也在国内引发了数据库创业热潮。相比传统的关系型数据库,图数据库能够更好地处理复杂的数据结构,并能够实现更高效的查询和分析,在可解释智能
2023-04-18 08:07:00
OceanBase杨冰:技术产品领导者,如何“进化”为全球经营者?
...是下单付款,依然如常丝滑——这背后离不开性能可靠的数据库的支撑。而国产分布式数据库厂商OceanBase已是连续十多年不可或缺的关键“守门人”
2025-12-30 10:20:00
OceanBase客户数破2000家,首批分布式数据库通过安全测试,撑起蚂蚁集团AI Agent
...报道,在10月23日举行的OceanBase 2024年度发布会上,OceanBase数据库OceanBase 4
2024-10-26 09:54:00
「数据中台」降温后,企业数智化下一局何解?
...更高,AI在实际业务中应用落地的数据反哺又至关重要。数据库巨头Databricks就在2023的年末总结里提出:“未来的大数据架构将是一个高度集成、智能化和自动化的系统,它能
2024-03-04 18:56:00
关于华为,一件隐秘而伟大的事
...一些常驻在华为办公的海外厂商人员当即撤离,包括Oracle数据库和ERP软件、各种生产工具等软件的顾问,华为过去几十年建立在商业软件之上的业务系统,危如累卵。以国家力量,旷日
2023-06-08 18:00:00
上海爱可生发布基于OceanBase开源内核的商业发行版ActionDB
...海爱可生信息技术有限公司(以下简称“爱可生”)召开数据库新品发布会,正式发布面向国产化时代的企业级数据库ActionDB
2023-05-21 06:00:00
更多关于科技的资讯:
中国科大刷新固态量子存储效率纪录
大皖新闻讯 “器件体积同步缩小上千倍,实现了破纪录的存储效率。”中国科学技术大学相关人员在接受采访时表示。2月13日晚
2026-02-13 22:05:00
江西造出水稻、油菜生物育种“中国芯”
本报讯 (全媒体记者沈冠楠)“我国水稻、油菜育种终于有了自主、低价的固相芯片!”2月9日上午,在江西省农业科学院生物育种创新中心的实验室内
2026-02-13 22:38:00
深度数科携手日照银行落地首笔纯信用贸易融资——看中国大集如何以平台数据重塑“产业信用”新生态
鲁网2月13日讯2月11日,一笔无需抵押、无需担保的200万元贷款在临沂商城引发关注。外贸公司“临沂兴达”凭借在中国大集平台上的真实贸易数据
2026-02-13 17:17:00
健康年味成新风尚!线下药房特色年货服务筑牢消费保障
随着农历新年临近,年货采购迎来高峰。消费者的需求日益清晰:既要礼品体面有心意,也要价格透明有保障。在此背景下,蕴含健康理念的礼品逐渐成为主流
2026-02-13 18:30:00
中新经纬2月13日电 题:智慧文旅“开挂”,创新与隐私如何鱼和熊掌兼得?作者 周慎 中国科学技术大学科技传播系副研究员
2026-02-13 18:55:00
中国网2月13日讯 据国家外汇管理局网站消息,2025年四季度,我国经常账户顺差17137亿元,其中,货物贸易顺差21043亿元
2026-02-13 19:38:00
中国网2月13日讯 据市场监管总局网站消息,为支持和引导互联网平台经营者有效防范反垄断合规风险,促进平台经济创新和健康发展
2026-02-13 19:38:00
河北新闻网讯(王华英、赵春龙)近日,在秦皇岛市海港区新引进的AI循经调理中心,一台AI循经机器人正在为市民巡检身体。这款机器人通过“AI大脑”人工智能算法
2026-02-13 17:46:00
瞿周2026年初,一部拍摄于多年前的小众纪录片《重返狼群》意外刷屏全网:抖音影视创作者@笔战风华的一条解说视频,收获超千万点赞
2026-02-13 14:10:00
喜旺春节礼盒燃爆卖场,热销势不可挡
马年新春将至,家家户户忙着囤年货、备年礼。各大商超卖场内,喜旺春节礼盒专区人头攒动、热闹非凡,选购人群络绎不绝,导购员忙碌不停
2026-02-13 14:57:00
百味中药“走”流水线,15秒配齐一副方 临沂智慧共煎药房藏着“神算子”
鲁网2月13日讯这里没有等位的长龙,没有穿梭的药柜;这里只有机器的低鸣、传送带的律动,以及每15秒,一方精准配伍的良药从流水线“智”造而出
2026-02-13 15:33:00
一张电子发票在医院扫码结算后,保险金几乎同步到账——这是上海L先生真实的理赔过程,这超乎想象的便捷,正成为数千万客户理赔体验的真实切片
2026-02-13 16:07:00
2月13日,京东集团面向全球90万京东人发布新春贺信,今年的新春贺信以《始终在成长,永远有梦想》为主题,全文如下:各位京东同事
2026-02-13 16:36:00
鲁网2月13日讯随着春节气息愈发浓厚,一场覆盖消费、民生多场景的促消费行动正在青岛温暖铺开。面对新消费趋势与实体经济的实际需求
2026-02-13 11:26:00
大麦娱乐与快达票达成战略投资合作 将共同开发港澳台市场
2月13日,大麦娱乐与香港知名票务平台快达票达成战略投资合作,双方宣布将透过各自在大中华地区门票销售的丰富经验,打造跨平台的升级购票体验
2026-02-13 11:32:00