• 我的订阅
  • 科技

AI 时代,这家公司想做一个免费数据库

类别:科技 发布时间:2023-07-20 11:36:00 来源:极客公园

数据可能是大模型驱动下,最先走向商业落地的领域之一。过去一个月,不少行业人士认为,随着算力成本的降低、开源模型的进步、以及模型部署服务的渗透,数据可能是软件公司利用大模型做出差异化,最重要的因素。

数据库领域的领头羊 Snowflake 和 Databricks 均在各自的大会上,描绘了大模型+数据的理想前景——现在由数据工程师和数据科学家才能取数、用数的场景,未来人人可得。

尽管实现这一图景还需要很多技术、工程、场景上的探索,但数据是大模型时代绝对的主角。相应地,承载数据调度的数据库也会迎来新一轮变革。

日前,国内数据库厂商 PingCAP 在用户峰会上,分享了关于 AI 时代数据库的新思考。

「如果为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」

五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样的需求。」

现在,黄东旭表示,「这个经典架构搬到云上想要支撑这个需求,PingCAP 得赔死了。」当 AI 正在改写软件行业时,PingCAP 推出了新一代架构的数据库——TiDB Serverless。

刘奇认为,TiDB Serverless 从架构上更系统地做到 AI ready,当「算算分离、存存分离、存算分离,这个时候非常容易引入 AI」。

AI 时代的数据库架构

作为软件公司,刘奇对这波「AI 重塑软件」有两个直接体感——一个是代码,还有一个是数据。

峰会上,他用一个「惊人」的数字来阐述 AI 变革——过去七个月,GitHub 上新增的原代码已经有超过 46% 由 AI 生成。「也就是说,如果从软件开发效率的角度去看,AI 已经完成了差不多一半的人类的工作,这是短短过去七个月的时间发生的事情」。

在 AI 时代到来之前,要先编程把各种各样的辅助工具编出来,再运行。但在今天,没有写一行代码,只提了个要求,就有结果了。数据消费的门槛变得极低,可以预见,数据将呈十倍、百倍规模的增长,这会对数据库带来巨大的挑战。

AI 时代,这家公司想做一个免费数据库

刘奇在峰会上分享数据库领域的变化 | 图片来源:PingCAP

对此,PingCAP 创始人兼 CEO 刘奇认为,团队于四年前开始预研、到现在正式商用的 TiDB Serverless 数据库,可以从架构上满足 AI 带来的新需求。

TiDB Serverless 数据库架构简化了应用的开发,让客户不必再花时间在数据库上,把复杂的事情交给 PingCAP 的系统自动化处理,而把自己的时间精力投资在业务创新上。过去,PingCAP 从解决 MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是这一理念的延伸。

PingCAP 联合创始人兼 CTO 黄东旭,在峰会的「年度保留节目」——「下一代数据库」主题演讲上进一步拆解了 TiDB Serverless 数据库的由来。

他认为,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。并且,下一代数据库还面临着新的要求和挑战:

除了极致的性能支持海量数据外,性能的可预测性成为关注焦点;

线性开发体验,数据库扩缩容对应用透明;

高效的成本控制,可以零成本起步(Scale-to-Zero);

多租户支持成为新常态,不仅要实现隔离,还要实现数据的共享。

为此,在重新设计 TiDB Serverless 的时候,PingCAP 定下了一个规范:「我们应该做的是数据库的服务化,而不是服务化的数据库。」

黄东旭介绍,8 年前一开始设计 TiDB 数据库时,他看到的东西就是一台台具体的服务器、CPU、内存、磁盘,基于这些东西来构造 TiDB,但是现在到 Serverless 版本的数据库,重新再去设计系统时,他看到的已经不是这些 CPU、磁盘、服务器,而是云上的服务,EC2 虚拟机、对象存储、甚至是云厂商的 RDS(关系型数据库)——他想在新的云原生的工程哲学里充分利用云的基础设施,这也是 TiDB Serverless 能把成本推到当前的极限水平的核心原因。

掀开最新一代数据库 TiDB Serverless 的引擎盖,里面大概有三个新的东西:

换了新的云原生的引擎 CSE(Cloud-native Storage Engine)架构;

在 TiDB 引入了逻辑上的 Key Space;

Resource Control 以及 RU 的概念,从上到下做全局流控。从而实现了无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务。

过去几个月的时间里,TiDB Serverless beta 版已经拥有超过 1 万个活跃的集群。

小模型服务企业场景

PingCAP 副总裁刘松认为,数据库正经历着从云原生数据库到 Serverless 数据库,再到拥抱 AI,将 AI 与数据库进行融合的大方向。TiDB Serverless 数据库作为 PingCAP 全新一代的架构,可以和 HTAP、AI 融合,成为三位一体的创新。

这些技术融合之后,下一步要看 AI 和数据库融合怎么才能提升数据库的处理能力、分析能力。

对于 AI 对数据库带来的变革,刘奇认为,AI 跟数据库应用的结合有更多的层面。最广为熟知的场景是用自然语言与数据库交互,就自动完成了数据分析的工作。

但是,还有其他中间和底层的环节,并且这些环节很多时候跟大模型无关。比如,可以用数据训练一个小 AI 模型,来预测用户 workload(工作负载)的变化,用户会感觉:数据好像本来就在这,分析速度非常快。他说:「之前跑的一个 workload,我们现在快了几十倍,结果看起来也是对的,突然有这么大的改变,会让人觉得难以置信」。

小模型正在发挥着超出预期的价值,这似乎有点反常。事实上,自 ChatGPT 以来,让 B 端企业用户再次为AI惊喜的是大模型的通用能力,可以解决根据小模型一个场景一个场景训练的「项目制」工程。

对于小模型的通用性,刘奇认为,当训练参数达到 120 亿、160 亿的时候,模型的知识丰富度已经很高了。而且,过去一段时间,小模型训练也很充分,起步的训练量在 1TB 的 Token,这样训练出来的结果至少是高中大学生的水平,再进到不同的行业做一些专有训练,其实也具备比较强的通用性。但调用 OpenAI 的 API,特别是 GPT-4 非常贵,以现在的成本没有办法做到人人可用。

另外,模型怎么跟互联网结合,让它能变得更加通用,现在这一技术也相对比较成熟。

比如要完成一个任务,允许模型使用工具(包括上网搜索关键词),经过几次的反复也能完成工作。「大模型也许不必装那么多知识,关键是推理能力到什么程度,剩下的可以依据推理能力把任务完成。」小模型推理能力的进步,是衡量可用性的重要因素。

他认为,有一些目前还没有开源、训练量没那么大,已经证明了推理能力可以显著改变,甚至可以超过 GPT-3.5。尽管不是全领域,是在某一方面,或者某几方面已经做到了。

更重要的是,用企业安全合规的标准来运维,小模型往往是更好的选择,它会更加专用。「如果把 AI 植入到各个环节,很多地方的应用都是专用的小的模型,它的速度需要很快做出预测;同时需要考虑到用户本身数据的安全合规,用户也不允许你把数据发出去给一个大模型,我的数据必须在我自己的地方」。

对于外界关心的 PingCAP 会接入哪家大模型,刘奇再次强调了小模型,尤其是开源小模型的价值。他说,如果超过千亿的参数是大模型,那么现在有大量数百亿参数的小模型进步速度非常快,超出了所有人的预期。

「当初谁也没有想到能够在短短的半年时间就有模型敢出来和 OpenAI 叫板,小模型想达到相对接近的能力需要多少年,现在我们发现至少有非常强的信心,一年之内就可以看到开源的小模型能够做到这一点,同时能更好的满足用户对于数据的要求,因为你数据不用出我们的服务,就能做到端到端的合规。」

从「算算分离、存存分离、存算分离」的 TiDB Serverless 架构,再到小模型的选择,PingCap 做出了实践其 AI 时代数据库服务商转型的重要一步。当数据量成倍增长时,「服务化+数据库」的逻辑,显然已经成为数据平台们的共识。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-20 16:45:44

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

整个足球世界,都在学习接受大数据时代的到来
...练们服务。球员可以从BreakAway Data等应用程序建立自己的数据库,该应用程序旨在帮助球员展示更全面更真实的能力,而不是靠个人表现集锦去吸引教练们的注意。放眼望去,整
2024-01-09 17:20:00
崔永庆:跑出数据运营平台型公司
...包括我们在数字消费领域的领先优势。全拓科技已触达大数据库活跃人群行为数据超过9.5亿,年覆盖人群超过600亿次。举个例子,比如数据画像这项技术,我们有一套标签数据分析系统,包
2024-05-16 06:29:00
数据觉醒时代,华为重新定义数据存储
...裁 周跃峰从上世纪90年代至今,随着企业的应用由单机、数据库/虚拟化、文件共享、大数据、高性能数据分析等应用的变迁,数据存储经历了从DAS到SAN/NAS,再到非结构化存储的
2024-05-07 20:01:00
36氪独家 | 「Fabarta」 获过亿元人民币 pre A 轮融资,大图和大模型在AGI时代缺一不可
...达1200亿美元,不少人开始关注新数仓,也在国内引发了数据库创业热潮。相比传统的关系型数据库,图数据库能够更好地处理复杂的数据结构,并能够实现更高效的查询和分析,在可解释智能
2023-04-18 08:07:00
OceanBase客户数破2000家,首批分布式数据库通过安全测试,撑起蚂蚁集团AI Agent
...报道,在10月23日举行的OceanBase 2024年度发布会上,OceanBase数据库OceanBase 4
2024-10-26 09:54:00
「数据中台」降温后,企业数智化下一局何解?
...更高,AI在实际业务中应用落地的数据反哺又至关重要。数据库巨头Databricks就在2023的年末总结里提出:“未来的大数据架构将是一个高度集成、智能化和自动化的系统,它能
2024-03-04 18:56:00
关于华为,一件隐秘而伟大的事
...一些常驻在华为办公的海外厂商人员当即撤离,包括Oracle数据库和ERP软件、各种生产工具等软件的顾问,华为过去几十年建立在商业软件之上的业务系统,危如累卵。以国家力量,旷日
2023-06-08 18:00:00
上海爱可生发布基于OceanBase开源内核的商业发行版ActionDB
...海爱可生信息技术有限公司(以下简称“爱可生”)召开数据库新品发布会,正式发布面向国产化时代的企业级数据库ActionDB
2023-05-21 06:00:00
数据驱动AI的新纪元,联想凌拓的新使命
...App ASA A系列还以更具创新性的块存储,为关键业务应用和数据库提供卓越的性能、安全性、可持续性和云集成,打造现代化的块存储服务
2024-02-06 16:42:00
更多关于科技的资讯:
大皖新闻讯 日前,合肥低速无人车生态大会暨场景生态合作伙伴签约仪式在合肥市政务中心举行,全国首个“体验式无人接驳商用项目”签约落地
2025-08-11 19:42:00
首年即盈亏平衡,音频AI芯片出货3000万片,波洛斯获数千万融资|硬氪首发
作者:欧雪硬氪获悉,深圳波洛斯科技有限公司(下称“波洛斯”)近日完成数千万A轮融资,由瀚联半导体产业基金(下称“瀚联基金”)独家战略投资
2025-08-11 09:45:00
德州银行上半年场景化金融交易突破12亿元
支付结算是银行核心基础服务。在数智化浪潮下,德州银行推动支付“动起来”的同时,聚焦与群众生活关系密切的民生服务行业,潜心系统研发与搭建
2025-08-11 19:15:00
周末补贴“战火”平息,行业回归理性竞争角逐“下半场”,即时零售谋“共生共赢”□南京日报/紫金山新闻记者 江芬芬 实习生王子衿8月9日下午
2025-08-11 07:14:00
何以中国·和合共生 天津是一座幸福感充盈的宝藏城市,无论常住还是旅居,浓浓的烟火气、饱满的松弛感常常疗愈凡人心。乐观豁达的态度、追求幸福的生活是天津休闲文化的本质。
2025-08-11 07:52:00
“你看,一点这些店铺招牌,实时路径就出现了。”9日,站在杭州湖滨步行街的繁华路口,江苏游客唐薇打开手机应用,千余米的东坡路瞬间化作虚实共生的数字孪生空间——实时街景“跃”出屏幕
2025-08-10 09:11:00
□南京日报/紫金山新闻记者 张安琪 实习生饶嘉萱7月18日,宝马集团国内唯一、全球六大信息技术研发中心之一——宝马信息技术全球研发中心项目落地南京
2025-08-10 09:54:00
□南京日报/紫金山新闻特派记者徐宁在世界级“舞台”上,来自南京的十多家机器人企业充分展示最新成果,与全球200余家企业同场“竞技”
2025-08-10 09:55:00
宠物食品迈入“云监工”时代 金故透明工厂重塑行业安全标准
2025年8月9日,山东省沂南县铜井镇宠物食品工业园内礼炮鸣响,高端宠物品牌金故斥巨资打造的“猪根真美透明工厂”正式投产运营
2025-08-10 17:26:00
?揭秘2025纳豆激酶十大品牌王者!十大品牌综合实力排行,效果、安全、性价比全解析!
在当代健康管理领域,纳豆激酶凭借其独特的心血管保护机制,已成为科学界和消费者共同关注的焦点成分。面对市场上良莠不齐的产品
2025-08-10 17:52:00
WRC 2025 | 破局机器人规模化落地难题,睿尔曼打造具身智能坚实基座
8月8日,全球顶级机器人盛会——2025世界机器人大会(WRC)在北京经济技术开发区北人亦创国际会展中心正式启幕。WRC世界机器人大会作为全球机器人领域的顶级盛会
2025-08-10 17:52:00
老国营押注“质价比”,贵州藏酒三大新品中酒展首发,获刘员、甘权点赞!
摘要:老国营酱酒的势与谋。文| 顿河从酒都仁怀到泉城济南,一场跨越1600多公里的酱香共鸣正上演。8月8日,“共生共赢2025贵州藏酒新品上市发布会”在济南润华皇冠假日酒店盛大举行
2025-08-10 17:52:00
2025版郎牌郎升级开启订购,看郎酒的国民酱香进化论
八月的酒业市场,即将被一抹熟悉又新颖的“郎酒红”点燃。7月31日,郎酒官微发布消息称:2025版郎牌郎8月11日起接受销售订单
2025-08-10 17:52:00
中新经纬8月10日电 (林琬斯)10日,话题#百果园称不会迎合消费者#登上微博热搜。8日,有媒体截取来源为“百果余惠勇”的一段视频发布
2025-08-10 16:06:00
产学研齐聚杭州 共话AI赋能香氛行业发展新未来
为深入探讨人工智能技术在香氛产业中的应用前景与创新路径,推动香氛行业与前沿科技的深度融合,促进产业升级与高质量发展,8月7日至8日
2025-08-10 10:44:00