• 我的订阅
  • 科技

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

类别:科技 发布时间:2023-10-25 17:26:00 来源:数据猿
【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

郭炜

本文由白鲸开源CEO郭炜投递并参与《2023中国企业数智化转型升级先锋人物》榜单/奖项评选。

随着数据驱动的理念深入人心,每个企业内部积累越来越多纷繁复杂的大数据,而这些新兴数据源与快速敏捷开发过程给企业数据治理提出新的挑战:

● 应用研发敏捷开发让应用/交易数据快速扩张,数据管理部门无法快速处理和及时响应,传统的数据治理流程产生巨大挑战;

● 新兴数据源,多云、混合云、SaaS快速发展,企业“暗数据”越来越多,大数据领域新兴数据孤岛越来越多,根据Gartner统计目前企业的大数据有68%数据没有被分析,82%企业出现数据孤岛;

● 业务部门数据驱动理念深入,为了满足需求多数企业建立多个数据集市让业务部门自己单独管理,结果是数据指标爆炸增长,数据治理的工作量越做越多,数据治理的范围却越管越少;

● 庞大的数据体系让数据越来越难找,数据治理越来越难,数据范围已经从DataOps扩大到DevOps流程,分析师80%时间都在找数据和验证数据。

这些都是在这个大数据时代下每个企业在数据治理方面提出的挑战。而大模型的出现,让企业通过智能化方法快速理解企业内部数据资产并帮助企业内部数据自发现、自分类、自关联,从而加速企业产生数据到数据产生信息最终转化成知识的效率,实现企业在数据管理方面全面数智化升级。

智能化数据治理的目标是让数据自发现,最终实现业务部门的自服务,这个目标很美好,但是技术落地实践非常复杂。过去Gartner曾经评估过DataFabric的实现难度,很多黄色(中成熟度)和红色(低成熟度)部分。

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

而具体智能化数据治理在企业落地过程中也遇到很多挑战:

● 传统元数据采集和映射,只有技术元数据,业务元数据获取方式大部分采取人工方式,大数据爆发的时代人工处理不过来;

● 知识图谱,传统用户画像现有的技术已经过时,数据目录型态无法满足查询和找到用户所需的数据;

● 数据虚拟化技术性能不足,而全部同步代价又大,何时自动迁移,何时源库查询?如何不影响OLTP环境很难判断。

●DataOps是基础(代码,需求,测试,ETL,数据质量,链路血缘)+数据源元数据整理并不完善。

过去传统的元数据分析和数据治理技术是基于图数据库、NLP语义分析,所以存在着技术元数据和业务元数据无法对应,数据管理工具无法理解行业属性和行业文档等问题,所以面对需要加企业业务理解(业务元数据)和数据资产(技术元数据)几乎无法实现。而大模型的自然语言理解力,结合向量数据库的知识储备能力已经远超过传统NLP、图数据库这些能力,将大数据数据治理“数智化”成为可能:

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

大模型的出现完全颠覆了以前数据治理智能化的技术框架架构,下图是过去传统的数据治理技术架构:

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

将企业的业务定义、行业理解,企业业务口径定义,企业内部数据库的结构,甚至数据画像都通过灌入大模型最终实现对企业内部数据的全面“自动化”最终实现数据,所以在大模型体系下,数智化数据治理技术框架是这样的:

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

下图就是我在白鲸开源训练的私有化大模型WhaleLLM的效果,我们可以惊喜的发现大模型可以迅速理解表述的语义,特殊的业务术语,并可以快速理解用户企业自己的数据库表结构,甚至可以把用户需求可以用SQL直接表述出来。在这个体系下,让DataFabric落地成为了可能。用一张A40显卡就可以让私有化大模型理解你的业务定义、表结构,并可以告诉你数据怎么来使用,甚至可以帮你把SQL准备好。

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

所以,在企业环境下,通过DevOps快速迭代开发应用,这些应用会远远不断的产生数据和新的业务流程以及业务知识,这些数据通过DataOps快速开发迭代反哺应用开发和企业决策。而在DevOps和DataOps之间,源源不断在学习业务知识、业务信息、数据治理的业务知识同时也源源不断学习企业数据湖、云、数据查询规则的大模型,将会成为一个企业内部的数据“万能顾问”,最终让智能化的数据治理落地。

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

早在2000年初Forrester面对纷繁复杂的数据定义和数据治理体系就提出了智能化的概念DataFabric。

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

而什么是DataFabric?中文翻译有人叫数据编织,也有人叫做数据经纬,从词面分析可知它的目标是把错综复杂的数据变为可快速被分析师使用可理解的数据,而且无论从“经纬”还是“编织”来看,都可以快速寻找到你所需要的数据,目前在Gartner和Forrester是这样定义的:

Data Fabric是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

——Forrester

Data Fabric是一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。通过散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

——Gartner

而大模型在数据治理和数据管理方面的力度,我最终认为会实现最终的DataFabric:

Data Fabric是一套新兴的数据管理自服务方式,通过智能化手段对企业的整体数据资源、元数据、业务规则等实现自发现、自分类、自关联,并提供手段可以快速异构同步/查询的方式快速完成数据获取和分析,从而实现企业数据资产全覆盖和高效的数据洞察。

——郭大侠

这就是结束了么?并不是。我认为最终智能化的数据治理和DataFabric,Chat with Your Data才是目标,也就是让每个有权限的员工,直接可以和企业大模型对话,从而实现对企业数据的访问和分析。

而这也正在一步一步成为现实,现在的ChatGPT,其实是互联网数据通过大量数据训练而成,所以你每次和ChatGPT对话的时候,你是在和整个互联网对话。而现在有很多开源工具,可以让你更简单的接入企业数据,自己训练自己的大模型。如下图,我前面的举例白鲸开源的WhaleLLM的大模型例子就是利用Apache SeaTunnel去获得多大150多种企业数据库同步和访问的权限,利用Apache DolphinScheduler来训练出来自己的DataFabric大模型。每个企业都可以简单的使用这些开源大模型生态来通过比较小的代价(GPU可以使用4090、A40、V100等)来训练自己的大模型。

【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级

当然,这些开源大模型的训练生态还在迭代,还有很多需要进一步提高的地方,而DataFabric这个概念也是和大模型一样刚开始落地,不过我相信有大模型的助力和DataFabric理念框架的指引,最终在每个企业里都可以拥有自己的人工智能大数据管理平台。

未来几年,企业的“数智化”升级是离不开大模型的助攻,数据治理的“数智化”升级只是开始,私有化开源大模型的进一步普及会让企业各方面的传统软件流程再重新构建一次,让我们拭目以待!

·关于郭炜

郭炜先生,白鲸开源CEO,毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,Apache基金会成员, Apache孵化器导师,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,波兰DataOps峰会、北美Big Data Day演讲嘉宾,虎啸十年杰出数字技术人物,中国开源社区最佳33人,中国2021年开源杰出人物。

郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。

★以上由郭炜投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国企业数智化转型升级先锋人物》榜单/奖项。

该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发,欢迎报名莅临现场

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-25 21:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI+全面升级数智底座,用友发布三大行业垂类大模型
...10日下午,由用友主办的“2024全球商业创新大会-企业数智化技术峰会”,在北京市“中国国际展览中心”隆重召开。此次峰会以“AI+全面升级数智底座”为主题,吸引众多行业领先企
2024-08-12 10:45:00
贵州高速集团全面接入DeepSeek大模型 “数智贵高”升级再提速
...,完成高速集团自研“贵高智通”大模型的开发,实现数智化转型的阶段性突破,推动智慧交通、物流规划及数据应用三大提升,为贵州省交通行业数智化发展注入新动能。在交通领域多模态数据整
2025-03-04 21:37:00
本文转自:中国工业报会展 观察数智化加速石油石化行业全产业链发展 ■ 中国工业报记者 徐如玉目前,全球油气企业井数持续增加,开采难度与工程量也在同步提升,但通过数智化的各项
2024-05-17 11:40:00
...地质灾害等领域的应用,推动规划和自然资源管理向“数智化”迈进,支撑和保障长春市经济社会高质量发展。智能大模型都“落点”哪些方面?一起来看看!开发智慧办公助手“AI小测”基于D
2025-03-17 17:07:00
金融行业步入全面智能化时代,华为云挑起大梁
...云化”进阶至“全面智能化”时期,在上云的基础上,数智化成为更强烈的需求。尤其是生成式AI应用不断普及,将智能化潮流推向新的高峰。中世纪,银行将珍贵的客户存贷款数据写在羊皮纸上
2023-12-06 11:37:00
泛能网发布新产品:数智化升级加速,能源领域驶入“自动驾驶”时代
...新质生产力所需的智能核心,企业不断加速探索着能源数智化发展的新空间。新奥能源副总裁、新奥泛能网总裁程路以“能源领域的自动驾驶系统”为喻,介绍了泛能网的数智实践方向。他分享道:
2024-09-13 19:43:00
蓄势赋能 数智化转型掌舵人百望云杨正道荣膺“先锋人物”
...了一个以智能科技为核心的新质生产力大爆发时代。在数智化浪潮的推动下,全球企业正站在转型升级的十字路口。在这个充满变革的时代,企业转型升级的道路充满挑战,但也孕育着无限可能。近
2024-07-31 13:09:00
亚马逊云科技助力德比软件数智化升级 生成式AI推动旅游业迈向大数据时代
...术手段解决痛点需求,以及亚马逊云科技在德比软件的数智化升级过程中起到了哪些作用。杨幸祺先生表示,作为一家旅游科技公司,德比软件发现大型酒店集团与大型的在线预定网站之间的系统对
2024-05-24 17:36:00
基于昇腾AI的大模型联合创新正式启动,华为携手26家行业领军企业、高校及科研院所共促产业数智化升级
...,助力伙伴高效训练大模型、加速业务上线,促进产业数智化转型升级。目前,昇腾AI产业快速发展,已发展30多家硬件伙伴、1200多家ISV,联合推出了2500多个行业AI解决方案
2023-07-10 16:00:00
更多关于科技的资讯:
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00
中国故事海外热播、“泰国模式”全球复制,爱奇艺探索流媒体出海的“长期主义”
2025年,是爱奇艺海外业务进入稳定期之后,增速最高的一年。第三季度,爱奇艺国际版日均会员数创下历史新高,海外会员收入同比增长超过40%
2026-01-09 14:53:00
为进一步优化知识产权服务供给,打通创新成果转化通道,提升知识产权公共服务效能,上饶市“人工智能+”知识产权大数据服务平台(http://shr
2026-01-09 15:04:00
从五金功能件制造者到智能睡眠守护者,喜安思“守护狮”的觉醒之路!
在珠江之畔制造业奔腾的脉搏里,总有一群敢想敢干敢拼的人,让这片沃土跃动出一个又一个传奇,而喜安思智能床垫就是其中之一,喜安思创始人梁富城与陈傲鹏更是其中佼佼者
2026-01-09 15:35:00
近日,【同程商旅】联合【曹操出行】,聚焦国内企业差旅交通全景,重磅发布《2026中国企业差旅交通出行数据研究报告》。发现价值“新流向”国际出行逆势增长
2026-01-09 15:35:00
悍高集团股份有限公司接待44家机构调研,战略清晰彰显经营韧性
随着家居行业逐步从增量市场迈向存量市场,家居五金企业如何找到新的增长曲线,成为考验企业战略定力与运营能力的关键。近期,悍高集团股份有限公司(董事长为悍高欧锦锋)接受包括百嘉基金
2026-01-09 15:35:00